算法笔记(四)梯度消失梯度爆炸

最新推荐文章于 2023-06-27 16:57:45 发布

nooobme

最新推荐文章于 2023-06-27 16:57:45 发布

阅读量153

点赞数 1

分类专栏：深度学习文章标签：算法深度学习神经网络

本文链接：https://blog.csdn.net/sleepinghm/article/details/120010199

版权

深度学习专栏收录该内容

30 篇文章 7 订阅

订阅专栏

前言

梯度爆炸和梯度消失问题都是因为网络太深，网络权值更新不稳定造成的，本质上是因为梯度反向传播中的连乘效应。

前向传播：
$\begin{aligned} z_1&=w_1X+b_1,a_1=\sigma (z_1)\\ z_2&=w_2a_1+b_2,a_2=\sigma(z_2)\\ ...\\ z_n&=w_na_{n-1+b_n},a_n=\sigma(z_n)\\ \end{aligned}$
则反向传播：
$\begin{aligned} \frac{\alpha loss}{\alpha w_1} &=\frac{\alpha loss}{\alpha a_n}\frac{\alpha a_n}{\alpha z_n}\frac{\alpha z_n}{\alpha a_{n-1}}\frac{\alpha a_{n-1}}{\alpha z_{n-1}}\frac{\alpha z_{n-1}}{\alpha a_{n-2}}\frac{\alpha a_{n-2}}{\alpha z_{n-2}}...\frac{\alpha a_1}{\alpha z_1}\frac{\alpha z_1}{\alpha w_1}\\ &=\frac{\alpha losss}{\alpha a_n}·\sigma'(z_n)w_n·\sigma'(z_{n-1})w_{n-1}·...·\sigma'(z_1)X \end{aligned}$

梯度消失：与激活函数的导数 $\sigma^{'}(x)$ 有关。
假如 $\sigma$ 为sigmoid激活函数，而sigmoid的导数范围是[0,0.25]，"链式法则"的累乘会导致梯度趋于0.
梯度爆炸：与权重有关，即 $|\sigma'(z) w|>1$ 。
链式法则还与 $|\sigma'(z) w|$ 有关，如果该值>1，"链式法则"累乘后会导致梯度趋于非常大的值.

梯度消失

与梯度太小有关。表现为只在后层学习，浅层不学习，浅层梯度基本无，权重改变量小，收敛慢，训练速度慢。

原因：

采用了不适合的激活函数，导致链式法则累乘时被0影响。
模型在训练的过程中，会不断调整数据分布，有可能接近激活函数饱和区，此时的导数很小，难以调整权重。

解决办法：

使用BN，将数据分布归一化。
预训练，微调。
使用relu等激活函数。
使用残差结构。
LSTM。
正则化。

梯度爆炸

与链式法则中的权重有关。可能导致权重NAN。
原因：

若初始化权重太大，累乘后会爆炸。
梯度>1。

解决办法：

注意权重初始化。
梯度剪裁。
BN。
预训练，微调。

RNN为何会梯度消失/爆炸？

首先看RNN计算流程,简设3个timestep:
在这里插入图片描述

前向传播:
$S_1=W_xX_1+W_sS_0+b1$ ， $O_1=W_oS_1+b2$ 。
$S_2=W_xX_2+W_sS_1+b1$ ， $O_2=W_oS_2+b2$ 。
$S_3=W_xX_3+W_sS_2+b1$ ， $O_3=W_oS_3+b2$ 。

此刻的损失函数： $loss_3=\frac{1}{2}(Y_3-O_3)^2$ 。

反向传播:

需要对 $W_o$ ， $W_s$ ， $W_x$ 求导，其中对 $W_s$ 和 $W_x$ 求导是同理的。

(1) $\frac{\delta loss_3}{\delta W_o}=\frac{\delta loss_3}{\delta O_3}\frac{\delta O_3}{\delta W_o}$

可以看出网络加深对于 $W_o$ 无影响。

(2) $\frac{\delta loss_3}{\delta W_s}=\frac{\delta loss_3}{\delta O_3}\frac{\delta O_3}{\delta S_3}\frac{\delta S_3}{\delta W_s}+\frac{\delta loss_3}{\delta O_3}\frac{\delta O_3}{\delta S_3}\frac{\delta S_3}{\delta S_2}\frac{\delta S_2}{\delta W_s}+\frac{\delta loss_3}{\delta O_3}\frac{\delta O_3}{\delta S_3}\frac{\delta S_3}{\delta S_2}\frac{\delta S_2}{\delta S_1}\frac{\delta S_1}{\delta W_s}$ 。

可以简写为：

$\frac{\delta loss_t}{\delta W_s}=\sum_{k=0}^t\frac{\delta loss_t}{\delta O_t}\frac{\delta O_t}{\delta S_t}\prod_{j=k+1}^t(\frac{\delta S_j}{\delta S_{j-1}})\frac{\delta S_k}{\delta W_x}$ 。

其中连乘的 $\prod_{j=k+1}^t(\frac{\delta S_j}{\delta S_{j-1}})$ 是导致梯度爆炸和消失的问题所在。

RNN梯度与其他网络梯度的区别

MLP/CNN 中不同的层有不同的参数，各是各的梯度；而 RNN 中同样的权重在各个时间步共享，最终的梯度= 各个时间步的梯度的和。
RNN 中总的梯度是不会消失的。即便梯度越传越弱，那也只是远距离的梯度消失，由于近距离的梯度不会消失，所有梯度之和便不会消失。RNN 所谓梯度消失的真正含义是，梯度被近距离梯度主导，导致模型难以学到远距离的依赖关系。

LSTM如何缓解梯度消失/爆炸？

LSTM介绍

在这里插入图片描述

遗忘门
- 可求得： $f_t=\sigma (W_f·[h_{t-1},x_t]+b_f)$ .
输入门
可求得：
- $i_t=\sigma (W_i·[h_{t-1},x_t]+b_i)$ .
- $\hat C_t=tanh (W_C·[h_{t-1},x_t]+b_C)$ .
- $C_t=f_t·C_{t-1}+i_t·\hat C_t$
输出门
可求得：
- $O_t=\sigma (W_o·[h_{t-1},x_t]+b_o)$ .
- $h_t=O_t·tanh(C_t)$ .

LSTM可以解决梯度消失，缓解梯度爆炸

整理可得公式：

$f_t=\sigma (W_f·[h_{t-1},x_t]+b_f)$ .
$i_t=\sigma (W_i·[h_{t-1},x_t]+b_i)$ .
$\hat C_t=tanh (W_c·[h_{t-1},x_t]+b_c)$ .
$C_t=f_t·C_{t-1}+i_t·\hat C_t$
$O_t=\sigma (W_o·[h_{t-1},x_t]+b_o)$ .
$h_t=O_t·tanh(C_t)$ .

LSTM 中梯度的传播有很多条路径， $C_{t-1} \rightarrow C_t=f_t·c_{t-1}+i_t·\hat c_t$ 这条路径上只有逐元素相乘和相加的操作，梯度流最稳定；但是其他路径（例如 $C_{t-1} \rightarrow h_{t-1} \rightarrow i_t \rightarrow c_t$ ）上梯度流与普通 RNN 类似，照样会发生相同的权重矩阵反复连乘。根据上式可以看出 $C_t$ 公式与 $h_t$ , $i_t$ , $\hat C_t$ , $C_{t-1}$ 有关,则可以得出:
$\begin{aligned} \frac{\delta C^{(k)}}{\delta C^{(k-1)}} &=\frac{\delta C^{(k)}}{\delta f^{(k)}}\frac{\delta f^{(k)}}{\delta h^{(k-1)}}\frac{\delta h^{(k-1)}}{\delta C^{(k-1)}}[h_t公式]\\ &+\frac{\delta C^{(k)}}{\delta i^{(k)}}\frac{\delta i^{(k)}}{\delta h^{(k-1)}}\frac{\delta h^{(k-1)}}{\delta C^{(k-1)}}[i_t公式]\\ &+\frac{\delta C^{(k)}}{\delta \hat C^{(k)}}\frac{\delta \hat C^{(k)}}{\delta h^{(k-1)}}\frac{\delta h^{(k-1)}}{\delta C^{(k-1)}}[\hat C_t公式]\\ &+\frac{\delta C^{(k)}}{\delta C^{(k-1)}} [C_t公式]\\ &=C^{t-1}(\sigma'·W_f)(o^t·tanh')\\ &+\hat C^{t}(\sigma'·W_i)(o^t·tanh')\\ &+i^{t}(tanh'·W_c)(o^t·tanh')\\ &+f_t \end{aligned}$
因此RNN的问题 $\prod_{j=k}^t$ 在LSTM中等价于 $f^{k}·f^{k+1}·f^{2}·...·f^{t})+other$
正常梯度 + 消失梯度 = 正常梯度，总的远距离梯度就不会消失，因此 LSTM 可以解决梯度消失。
- 可自主选择[0,1]之间，当遗忘门接近 1时（例如模型初始化时会把 forget bias 设置成较大的正数，让遗忘门饱和），这时候远距离梯度不消失；
- 当遗忘门接近 0时，但这时模型是故意阻断梯度流的（例如情感分析任务中有一条样本 “A，但是 B”，模型读到“但是”后选择把遗忘门设置成 0，遗忘掉内容 A，这是合理的）。
正常梯度 + 爆炸梯度 = 爆炸梯度，因此 LSTM 仍然有可能发生梯度爆炸。不过，由于 LSTM 和普通 RNN 相比多经过了很多次激活函数（导数都小于 1），因此 LSTM 发生梯度爆炸的频率要低得多。

参考

https://zhuanlan.zhihu.com/p/25631496
https://www.cnblogs.com/bonelee/p/10475453.html
https://www.zhihu.com/question/34878706/answer/665429718

nooobme

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
算法笔记(四)梯度消失梯度爆炸

前言梯度消失与梯度为0有关。表现为只在后层学习，浅层不学习，浅层梯度基本无，权重改变量小，收敛慢，训练速度慢。原因：采用了不适合的激活函数，导致链式法则累乘时被0影响。模型在训练的过程中，会不断调整数据分布，有可能接近激活函数饱和区，此时的导数很小，难以调整权重。解决办法：使用BN，将数据分布拉回归一化。预训练，微调。使用relu等激活函数使用残差结构LSTM梯度剪裁正则化梯度爆炸与链式法则中的权重有关。原因：若初始化权重太大，累乘后会爆炸。梯度>1。
复制链接

扫一扫