RNN 图示+问题（梯度爆炸or消失）+变形（LSTM+GRU）

最新推荐文章于 2024-05-10 11:51:49 发布

Bernard_Yang

最新推荐文章于 2024-05-10 11:51:49 发布

阅读量327

点赞数 2

分类专栏： NLP 文章标签： python 人工智能深度学习神经网络自然语言处理

本文链接：https://blog.csdn.net/weixin_38224810/article/details/115843804

版权

NLP 专栏收录该内容

21 篇文章 5 订阅

订阅专栏

RNN Illustration

W，U，V参数在整个传播过程共享（参数共享）

RNN training process

在这里插入图片描述

一般神经网络的反向传播

在这里插入图片描述

反向传播过程

在针对每个C进行更新的时候，都需要反向传播到第一个时间步去计算对应的偏导数以更新参数，更详细的分析在下面。
在这里插入图片描述

梯度消失or爆炸

在这里插入图片描述

更详细的分析

在这里插入图片描述

上图中在求偏导过程中标注的long time dependency就是RNN出现梯度消失or爆炸的原因，归纳之后也就是 $\prod_{j=k+1}^{t} \frac{\partial S_{j}}{\partial S_{j-1}}$ 因为多个时间步相乘会造成结果无穷大or无穷小。
在这里插入图片描述

解决梯度消失or爆炸的方法

应用gate机制的网络：LSTM和GRU

要消除梯度消失or爆炸这种情况就需要把 $\prod_{j=k+1}^{t} \frac{\partial S_{j}}{\partial S_{j-1}}$ 在求偏导的过程中去掉。
在这里插入图片描述

LSTM

LSTM原理

原理讲解查看这里
下图显示了数据在LSTM单元内流动的过程

在这里插入图片描述

一些符号和公式
在这里插入图片描述
$f_t, i_t, o_{t}$ 是三个gate

LSTM解决梯度消失or爆炸

RNN中梯度消失or爆炸的原因在于 $\prod_{j=k+1}^{t} \frac{\partial S_{j}}{\partial S_{j-1}}$ 隐状态在反向传播时的依赖性，LSTM通过让这个递归式等于一个常数来解决这个问题。
首先LSTM引入一个单独的cell state $C_t$ ，cell state遵从以下公式 $C_{t}=f C_{t-1}+i \widetilde{C}_{t}$
下面直讲重点，全部详细讲解见这里
当我们做bp时，LSTM的recursive derivative为 $\frac{\partial C_t}{\partial C_{t-1}}$ , 根据上面的公式和符号，可以得知 $C_{t}$ 是 $f_t, i_t, \widetilde{C}_{t}$ 的函数，而 $f_t, i_t, \widetilde{C}_{t}$ 是 $C_{t-1}$ 的函数（因为 $h_{t}=o_{t} \tanh \left(C_{t}\right)$ ）

完整的bp
$\begin{aligned} \frac{\partial C_{t}}{\partial C_{t-1}} &=\frac{\partial C_{t}}{\partial f_{t}} \frac{\partial f_{t}}{\partial h_{t-1}} \frac{\partial h_{t-1}}{\partial C_{t-1}}+\frac{\partial C_{t}}{\partial i_{t}} \frac{\partial i_{t}}{\partial h_{t-1}} \frac{\partial h_{t-1}}{\partial C_{t-1}} \\ &+\frac{\partial C_{t}}{\partial \widetilde{C}_{t}} \frac{\partial \widetilde{C}_{t}}{\partial h_{t-1}} \frac{\partial h_{t-1}}{\partial C_{t-1}}+\frac{\partial C_{t}}{\partial C_{t-1}} \end{aligned}$
根据上面的公式写出完整的表达式:
$\begin{aligned} \frac{\partial C_{t}}{\partial C_{t-1}} &=C_{t-1} \sigma^{\prime}(\cdot) W_{f} * o_{t-1} \tanh ^{\prime}\left(C_{t-1}\right) \\ &+\widetilde{C}_{t} \sigma^{\prime}(\cdot) W_{i} * o_{t-1} \tanh ^{\prime}\left(C_{t-1}\right) \\ &+i_{t} \tanh ^{\prime}(\cdot) W_{C} * o_{t-1} \tanh ^{\prime}\left(C_{t-1}\right) \\ &+f_{t} \end{aligned}$