梯度消失，梯度爆炸＿原因分析＿简单例子助理解

最新推荐文章于 2024-07-28 16:01:05 发布

默_存

最新推荐文章于 2024-07-28 16:01:05 发布

阅读量649

点赞数 3

分类专栏：深度学习文章标签：梯度消失梯度爆炸神经网络

本文链接：https://blog.csdn.net/weixin_40215443/article/details/86322568

版权

深度学习专栏收录该内容

5 篇文章 3 订阅

订阅专栏

梯度消失，梯度爆炸＿原因分析＿简单例子助理解

梯度消失，梯度爆炸的根源其实是来在反向传播BP(back propagation).

反向传播的思想: 每层的输出是由两层间的权重决定的，两层之间产生的误差，按权重缩放后在网络中向前传播, 这就是反向传播。
从反向传播中得到一般化公式：
$\delta ^{n-1}=\omega _{n-1}\delta ^{n}* f_{n-1}'$

$\Delta w_{n-2}=\eta \delta ^{n-1}x_{n-1}$

其中 $\delta ^{n}$ 为第 $n$ 层的误差项， $\delta ^{n-1}$ 为第 $n - 1$ 层的误差项， $\omega _{n-2}$ 为第 $n - 2$ 层到第 $n － 1$ 层的权重， $f_{n-1}'$ 为第 $n - 1$ 层输出的导数，也就是激活函数的导数， $x_{n-1}$ 为第 $n - 1$ 层的输入， $\eta$ 为学习率， $\Delta w_{n-2}$ 就是第 $n - 2$ 层到第 $n - 1$ 层权重更新步长了．

对于 $n$ 层神经网络，根据反向传播的公式，到第 $n - i$ 层的权重 $w_{n-i-1}$ 更新规则为：

$\delta ^{n-i}=(\omega _{n-i}\cdot\cdot\cdot(\omega _{n-2}(\omega _{n-1}(\omega _{n}\delta ^{n}* f_{n-1}')* f_{n-2}')* f_{n-3}')\cdot\cdot\cdot* f_{n-i}')$

$\Delta w_{n-i-1}=\eta \delta ^{n-i}x_{n-i}$

上述就是权重 $w_{n-i}$ 更新规则，对于激活函数的倒数 $f_{n-1}'$ ， $f_{n-2}'$ ， $f_{n-3}'$ ，．．， $f_{n-i}'$ ，如果此部分大于1，那么层数增多的时候，最终的求出的权重 $w_{n-i}$ 更新将以指数形式增加，即发生梯度爆炸，如果此部分小于1，那么随着层数增多，求出的权重 $w_{n-i-1}$ 的更新步长 $\Delta w_{n-i-1}$ 将会以指数形式衰减，即发生了梯度消失。

简单例子

用下面最简单的单线神经网络来说明，更见直观的理解梯度消失，梯度爆炸．

说明： $f$ 表示激活函数， $f_{i}$ 就表示第 $i$ 层的输出， $\delta ^{i}$ 表示输出的误差项．
那么根据上图，可以得到第二层的误差项 $\delta ^{2}$ 为：

$\delta ^{2}=w_{2}w_{3}w_{4}\delta ^{5}f_{4}'f_{3}'f_{2}'$

第二层的权重更新步长为：

$\Delta w_{2}=\eta \delta ^{2}x_{2}$

从上面的例子我们可以直观的看出有连乘 $f_{4}'f_{3}'f_{2}'$ ,　当神经网络的层数进一步增加的时候，连乘会进一步加长．所以当 $f_{n}'<1$ 的时候，随着累乘的增加（远离输出端），误差项 $\delta$ 会逐渐趋近0，这就是梯度消失．当 $f_{n}'>1$ 的时候，随着累乘的增加（远离输出端），误差项 $\delta$ 会逐渐趋近无穷，这就是梯度爆炸．