第七周【任务1】RNN长期依赖问题

最新推荐文章于 2024-04-24 12:51:41 发布

西风瘦马1912

最新推荐文章于 2024-04-24 12:51:41 发布

阅读量796

点赞数

分类专栏：深度学习花书第7期文章标签：随机梯度下降 rnn 循环神经网络深度学习

本文链接：https://blog.csdn.net/weixin_39236489/article/details/112424037

版权

深度学习花书第7期专栏收录该内容

22 篇文章 10 订阅

订阅专栏

RNN经过许多阶段传播后的梯度倾向于消失(大部分情况)或爆炸(很少，但对优化过程影响很大)。【比如说对于 $t = 1, 2$ 时刻的输入向量的梯度 $\dfrac{\partial J}{\partial x_{2}}=\dfrac{\partial J}{\partial h_{2}} U^{T}$ ，可以被 $t = 4$ 的 $h_4$ 有效影响。但是对于 $t = 99, 100$ 的 $h_{99}, h_{100}$ ,可能就无法有效影响了。因为 $h_1$ 依赖 $S_1$ ， $S_1$ 依赖 $h_2$ ，一直递归下去。】

梯度消失或者爆炸

梯度爆炸：在深层的神经网络中，由于多个权重矩阵的相乘，会出现很多如图所示的陡峭区域，当然也有可能会出现很多非常平坦的区域。在这些陡峭的地方，Loss函数的导数非常大，导致最终的梯度也很大，对参数进行更新后可能会导致参数的取值超出有效的取值范围，

在这里插入图片描述

梯度消失：而在那些非常平坦的地方，Loss的变化很小，这个时候梯度的值也会很小(可能趋近于0)，导致参数的更新非常缓慢，甚至更新的方向都不明确。

回到上一篇博客中，我们定义一个简化的循环神经网络，该网络中的所有激活函数均为线性的，除了在每个时间步上共享的参数W以外，其它的权重矩阵均设为1，偏置项均设为0。我们又假设输入的序列中除了 $x_0=1$ ，其他输入的值为0，如下图

在这里插入图片描述

那么，我们从前向传播的角度看，RNN的输出是关于权重矩阵 $W$ 的指数函数
$\begin{array}{l} h_{0}=1 \\ h_{1}=W \\ h_{2}=W^{2} \\ \vdots \\ h_{t}=W^{t} \end{array}$
当W的值大于1时，随着 $t$ 的增加，神经网络最终输出的值也成指数级增长，而当W的值小于1时，随着 $t$ 的值增加，神经网络最终的输出则会非常小。这两种结果分别是导致梯度爆炸和梯度消失的根本原因。从例子可以看到，循环神经网络中梯度消失和梯度爆炸问题产生的根本原因，是由于参数共享导致的。

如果从后向传播的角度看，也会有类似问题
$\begin{array}{l} &\dfrac{\partial J}{\partial S_{t-1}}=\dfrac{\partial J}{\partial O_{t-1}} V^{T}+\dfrac{\partial J}{\partial h_{t}} W^{T} \\ &\dfrac{\partial J}{\partial h_{t}}=\dfrac{\partial J}{\partial S_{t}} \dfrac{d S_{t}}{d h_{t}}\\ \Rightarrow & \dfrac{\partial J}{\partial S_{t-1}}=\dfrac{\partial J}{\partial O_{t-1}} V^{T}+\dfrac{\partial J}{\partial S_{t}} \dfrac{d S_{t}}{d h_{t}} W^{T} \approx f(t) \dfrac{\partial J}{\partial S_{t}} \end{array}$
因此对于 $t$ 时刻的前 $k$ 时刻
$\frac{\partial J}{\partial S_{t-k}}=f_{1}(t) f_{2}(t) \cdots f_{k}(t) \frac{\partial J}{\partial S_{t}}$
这里如果忽略 $\dfrac{d S_{t}}{d h_{t}}$ , 那么自然又有与前向传播时类似的问题， $f_{1}f_{2}\cdots f_{k}$ 与W的k次方相关， $f_{1}(t) f_{2}(t) \cdots f_{k}(t) \propto (W^{T})^{k}$ , 因此会出现梯度消失或者梯度爆炸。比如假设 $W$ 的值远小于1，显然随着 $t, k$ 的值增加， $\dfrac{\partial J}{\partial S_{t-k}}$ 会越来越小接近于0。

这里我们可以采用一种简单的方式解决，也就是在反向传播的过程中，每隔k时间段就清除下一时刻传来的梯度。比如说，设定k=20, 在 $t - 20$ 时刻，梯度 $\frac{\partial J}{\partial S_{t-k}}$ 重新等于0，那么 $\dfrac{\partial J}{\partial S_{t-20}}=\dfrac{\partial J}{\partial O_{t-20}} V^{T}+\dfrac{\partial J}{\partial h_{t-19}} W^{T} = \dfrac{\partial J}{\partial O_{t-20}} V^{T}$ , 也就是只保留第一项。

另一个方法就是就是采用gradient clip。比如只允许[-100, 100]范围内的梯度，如果梯度值变成了500，就强制变为100。这样也能减缓这个问题。

西风瘦马1912

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
第七周【任务1】RNN长期依赖问题

RNN经过许多阶段传播后的梯度倾向于消失(大部分情况)或爆炸(很少，但对优化过程影响很大)。【比如说对于t=1,2t=1, 2t=1,2时刻的输入向量的梯度∂J∂x2=∂J∂h2UT\dfrac{\partial J}{\partial x_{2}}=\dfrac{\partial J}{\partial h_{2}} U^{T}∂x2∂J=∂h2∂JUT，可以被t=4t=4t=4的h4h_4h4有效影响。但是对于t=99,100t=99, 100t=99,100的h99,h100h_{99},
复制链接

扫一扫