为了改善长期依赖问题,引入了门控机制来控制信息的累积速度,包括选择性的加入新的信息,选择性的遗忘之前累积的信息。这一类网络称为基于门控的循环神经网络。
长短期记忆网络
长短期记忆(Long Short-Term Memory,LSTM)网络是循环网络的一个变体,可以有效地解决简单循环网络的梯度爆炸或消失问题。
LSTM网络的改进
在新的内部状态LSTM网络引入一个新的内部状态
专门进行现行的循环信息传递,同时(非线性)输出信息给隐藏层的外部状态
。
,
其中
为
三个门,分别是
遗忘门,输入门和输出门。来控制信息传递的路径;
为向量元素乘积;
为上一时刻的记忆单元;
是通过非线性函数得到的
候选状态。
在每个时刻t,LSTM网络的内部状态
记录了当前时刻为止的历史信息。
- 遗忘门
:控制上一个时刻的内部状态需要遗忘多少信息。
- 输入门
:控制当前时刻的候选状态