RNN梯度消失和爆炸的原因

最新推荐文章于 2022-07-20 21:16:24 发布

two_apples

最新推荐文章于 2022-07-20 21:16:24 发布

阅读量1.9k

点赞数 2

分类专栏：深度学习与神经网络

原文链接：https://zhuanlan.zhihu.com/p/28687529

版权

深度学习与神经网络专栏收录该内容

15 篇文章 0 订阅

订阅专栏

一个经典的RNN结构如下图所示：
在这里插入图片描述假设我们的时间序列只有三段， $S_0$ 为给定值，神经元没有激活函数，则RNN最简单的前向传播过程如下: $S_{1}=W_{x} X_{1}+W_{s} S_{0}+b_{1} O_{1}=W_{o} S_{1}+b_{2}$ $S_{2}=W_{x} X_{2}+W_{s} S_{1}+b_{1} O_{2}=W_{o} S_{2}+b_{2}$ $S_{3}=W_{x} X_{3}+W_{s} S_{2}+b_{1} O_{3}=W_{o} S_{3}+b_{2}$ 假设在t=3时刻，损失函数为 $L_{3}=\frac{1}{2}\left(Y_{3}-O_{3}\right)^{2}$ 。则对于一次训练任务的损失函数为 $L=\sum_{t=0}^{T} L_{t}$ 即每一时刻损失值的累加。使用随机梯度下降法训练RNN其实就是对 $W_x$ 、 $W_s$ 、 $W_o$ 以及 $b_1$ 、 $b_2$ 求偏导，并不断调整它们以使 $L$ 尽可能达到最小的过程。现在假设我们我们的时间序列只有三段， $t_1$ ， $t_2$ ， $t_3$ 。我们只对 $t_3$ 时刻的 $W_x$ 、 $W_s$ 、 $W_o$ 求偏导（其他时刻类似）： $\frac{\partial L_{3}}{\partial W_{0}}=\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial W_{o}}$ $\frac{\partial L_{3}}{\partial W_{x}}=\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial S_{3}} \frac{\partial S_{3}}{\partial W_{x}}+\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial S_{3}} \frac{\partial S_{3}}{\partial S_{2}} \frac{\partial S_{2}}{\partial W_{x}}+\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial S_{3}} \frac{\partial S_{3}}{\partial S_{2}} \frac{\partial S_{2}}{\partial S_{1}} \frac{\partial S_{1}}{\partial W_{x}}$ $\frac{\partial L_{3}}{\partial W_{s}}=\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial S_{3}} \frac{\partial S_{3}}{\partial W_{s}}+\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial S_{3}} \frac{\partial S_{3}}{\partial S_{2}} \frac{\partial S_{2}}{\partial W_{s}}+\frac{\partial L_{3}}{\partial O_{3}} \frac{\partial O_{3}}{\partial S_{3}} \frac{\partial S_{3}}{\partial S_{2}} \frac{\partial S_{2}}{\partial S_{1}} \frac{\partial S_{1}}{\partial W_{s}}$
可以看出对于 $W_o$ 求偏导并没有长期依赖，但是对于 $W_x$ 、 $W_s$ 求偏导，会随着时间序列产生长期依赖。因为 $S_t$ 随着时间序列向前传播，而 $S_t$ 又是 $W_x$ 、 $W_s$ 的函数。
根据上述求偏导的过程，我们可以得出任意时刻对 $W_x$ 、 $W_s$ 求偏导的公式： $\frac{\partial L_{t}}{\partial W_{x}}=\sum_{k=0}^{t} \frac{\partial L_{t}}{\partial O_{t}} \frac{\partial O_{t}}{\partial S_{t}}\left(\prod_{j=k+1}^{t} \frac{\partial S_{j}}{\partial S_{j-1}}\right) \frac{\partial S_{k}}{\partial W_{x}}$ 任意时刻对 $W_s$ 求偏导的公式同上。
如果再加上激活函数: $S_{j}=\tanh \left(W_{x} X_{j}+W_{s} S_{j-1}+b_{1}\right)$ 。其中 $\tanh ^{\prime}=[0,1]$ $f(z)=\tanh (z)$ $f(z)^{\prime}=1-(f(z))^{2}$ 激活函数tanh和它的导数图像如下：
在这里插入图片描述由上图可以看出 $\tanh ^{\prime} \leq 1$ ，对于训练过程大部分情况下tanh的导数是小于1的，因为很少情况下会出现 $W_{x} X_{j}+W_{s} S_{j-1}+b_{1}=0$ ，如果 $W_s$ 也是一个大于0小于1的值，则当 $t$ 很大时 $\prod_{j=k+1}^{t} \tanh ^{\prime} W_{s}$ 会趋于0，和 $0.01^{50}$ 趋近于0是一个概念，同理当 $W_s$ 很大时， $\prod_{j=k+1}^{t} \tanh ^{\prime} W_{s}$ 会趋于无穷。这就是RNN中梯度消失和爆炸的原因。

至于怎么避免这种现象，让我在看看就是 $\frac{\partial L_{t}}{\partial W_{x}}=\sum_{k=0}^{t} \frac{\partial L_{t}}{\partial O_{t}} \frac{\partial O_{t}}{\partial S_{t}}\left(\prod_{j=k+1}^{t} \frac{\partial S_{j}}{\partial S_{j-1}}\right) \frac{\partial S_{k}}{\partial W_{x}}$ 梯度消失和爆炸的根本原因就是 $\prod_{j=k+1}^{t} \frac{\partial S_{j}}{\partial S_{j-1}}$ 这一坨，要消除这种情况就需要把这一坨在求偏导的过程中去掉，至于怎么去掉，一种办法就是使 $\frac{\partial S_{j}}{\partial S_{j-1}} \approx 1或者\frac{\partial S_{j}}{\partial S_{j-1}} \approx 0$ 其实这就是LSTM做的事情。

总结：

梯度消失：一句话，RNN梯度消失是因为激活函数tanh函数的倒数在0到1之间，反向传播时更新前面时刻的参数时，当参数W初始化为小于1的数，则多个(tanh函数’ * W)相乘，将导致求得的偏导极小（小于1的数连乘），从而导致梯度消失。
梯度爆炸：当参数初始化为足够大，使得tanh函数的导数乘以W大于1，则将导致偏导极大（大于1的数连乘），从而导致梯度爆炸。

two_apples

关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
4
评论
RNN梯度消失和爆炸的原因

一个经典的RNN结构如下图所示：假设我们的时间序列只有三段， S0S_0S0为给定值，神经元没有激活函数，则RNN最简单的前向传播过程如下:S1=WxX1+WsS0+b1O1=WoS1+b2S_{1}=W_{x} X_{1}+W_{s} S_{0}+b_{1} O_{1}=W_{o} S_{1}+b_{2}S1=WxX1+WsS0+b1O1=WoS1+b2S2=Wx...
复制链接

扫一扫