lstm结构图_LSTM 如何解决RNN中梯度消失问题

最新推荐文章于 2022-10-31 16:22:41 发布

weixin_39941721

最新推荐文章于 2022-10-31 16:22:41 发布

阅读量276

点赞数

文章标签： lstm结构图为什么在反向传播中感知器初始值不能为0

由上图看出，对RNN来讲，每一层网络的输入来自前一层的输出h和当前层的的输入x,当前层会得到该层的输出h_hat 和经过softmax后的y值输出，这里3个W参数可训练。
每一层的隐向量为
, 每一层的输出
在反向传播过程中，总误差
关于

的梯度计算如下，需要注意的是

代表每个t时间步神经元输出的误差总和
因此当反向传播K个时间步时
,
这里的推导看不懂
如果
主特征值大于1，梯度爆炸，小于1梯度消失。
详细细节请参考：Cyber：为什么LSTM可以阻止梯度消失：从反向传播视角来考虑（博客翻译）

从RNN推导可知，造成梯度问题的求导在于

，也就是说如果这个导数是良性的，我们就可以学到长期依赖。

LSTM的推导不仅只有上面部分，这里只解释
对于梯度问题的改进
当我们需要k时间步的反向传播，这里需要将上述式子进行连乘k次，在
中

都是可以学习的，也就是门函数赋予网络决定梯度消失程度的能力，即梯度求导中包含加法，使得模型可以自我学习加法，使得导数可以在1上下跳动
当长期依赖对结果有重要影响时，网络可以将遗忘门学习的很大即将
学习的较大，如果长期依赖对结果不重要，梯度消失对结果影响不大，则遗忘门学习的就小一点。
解释上句话为什么
调大可以保留更多的上文信息

由

公式得到其值在[0,1]之间，因为

是一个连乘公式，所以未保证连乘中的每一项都接近1，

接近1.

为什么相比于RNN，LSTM在梯度消失上表现更好？

图解LSTM结构_光英的记忆博客-CSDN博客_lstm结构图

Cyber：为什么LSTM可以阻止梯度消失：从反向传播视角来考虑（博客翻译）

关注