简单来说,LSTM通过一条主线,三个门来处理序列信息;每个时刻主线上都会加入新时刻的数据,然后将主线上的上的数据输出并传递给下时刻
补充知识
这里对LSTM常用到的几个计算和函数做一个说明:
sigmoid函数:用于输出一个0~1的概率值或比例值,一般搭配乘法运算,用于控制信息传递的比例,同时sigmoid的非线性变换能够增加模型学习非线性特征的能力;一般激活函数的作用就是增加模型学习非线性特征的能力,因为单纯的矩阵乘法没有学习非线性特征的能力
乘法:一般将一个比例值和信息相乘,用于控制信息传递的比例
加法:一般将两种信息想加,做信息的融合
主线
主线上的值是历史时刻输出门值的加权和
每一时刻,主线上的值都会更新为当前主线上的值和当前输出门的值的加权和;第一个权重由遗忘门得到,第二个权重由输出门内部的sigmoid函数得到;这种方式类似于指数加权平均,时间距离远的输出门权重更小
遗忘门
对于每一个新时刻,主线的值会更新为当前主线上的值和当前输出门的值的加权和,而遗忘门的作用是:给出当前主线数据的权重
具体计算方法如下:
将上一时刻的输出、当前时刻的输入拼接成一个长向量后和权重矩阵点乘,然后通过sigmoid函数输出一个0~1的数据,最后用于和主线上的数据做乘法;
遗忘门的意义在于更新后的当前主线数据占更新后主线数据的比例(0全部舍弃,1全部接受)
补充:
LSTM 刚提出时没有遗忘门,等价于遗忘门输出的值恒为1,这样一来就保证了主线上的信息会完全被当前时刻接受,不会消失。类似于 ResNet 中的残差连接。
输人门
输入门的作用是:对于新时刻,将新时刻的信息按一定权重加到主线上,从而更新主线值
输人门需要计算以下两个值:
- 加入到主线的值,ct
- 加入到主线的值得比例(0~1),it
ct 和 it 都是通过将上一时刻的输出和当前时刻的输入拼接成一个长向量然后和权重矩阵点乘得到的 ,但 ct 使用tanh函数激活后输出;而 it 使用sigmoid函数激活后输出一个0~1的概率值;
最后将 ct 和当前主线上的值加权相加得到新的主线值,权重分别为 it 和遗忘门的输出
输出门
输出门用于输出的当前时刻模型计算的值;输出门和输入门类似,需要计算输出值 和输出值的比例 ot,最后将两个值相乘做为输出门的输出
输出值:
将主线上的值通过一个tanh函数激活得到
输出值的比例( ot ):
通过将当前时刻输入和上一时刻的输出拼接成一个长向量然后和权重矩阵点乘得到,最后通过sigmoid函数转化成一个0~1之间的比例
输出门输出( ht ):
将模型输出的值和输出值的比例相乘得到最终模型的输出
模型的输出会传递到两个地方,一个直接输出,一个传递到下一时刻
改进LSTM
- 使用多层LSTM结构,类似多层全连接网络,只是将全连接网络中的神经元替换成LSTM神经元
- 使用双向LSTM(BiLSTM),使LSTM能够同时参考当前时刻之前和当前时刻之后的信息,但双向LSTM只是简单的将两个LSTM得到的输出拼接到一起,前后信息没有交流,因此时间信息的获取能力要弱于Transformer的self-attention,同时相比于self-attention,LSTM容易出现梯度弥散
- 使用dropout,但是这里的dropout和RNN的关系不大; dropout不使用在LSTM神经元内部,而是使用在多层LSTM网络的的不同的网络层之间