深度学习之 Vanishing Gradient Problem：深度网络中梯度消失问题的解释说明

最新推荐文章于 2025-03-26 10:19:04 发布

算法在世间

最新推荐文章于 2025-03-26 10:19:04 发布

阅读量1.2k

点赞数 15

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/qq_28955669/article/details/140430493

版权

深度学习之 Vanishing Gradient Problem：深度网络中梯度消失问题的解释说明

本文是《深入浅出神经网络与深度学习》第五章深度神经网络为何很难训练的简易读书笔记，记录了深度神经网络中的梯度消失及产生原因说明。

文章目录

深度学习之 Vanishing Gradient Problem：深度网络中梯度消失问题的解释说明

一、基本概念

在深度神经网络中，梯度在隐藏层间反向传播时趋于变小，即前面隐藏层中的神经元学习速度要慢于后面隐藏层的现象，称梯度消失（Vanishing Gradient Problem）。与之相对，若前面的隐藏层中的梯度变得非常大时，称为梯度爆炸（Exploding Gradient Problem）。

二、简单解释

为何会出现梯度消失的问题？
我们通过一个每层只有一个神经元，包含三层隐藏层的神经网络来解释。网络的结构图如下：
在这里插入图片描述其中， $w_1,w_2,...$ 是权重， $b_1,b_2,...$ 是偏置， $C$ 是代价函数，第 $j$ 个神经元的输出 $a_j=\sigma(z_j)$ ,神经元的带权输入 $z_j=w_j*a_{j-1}+b_j$ ， $\sigma$ 是常用的 $s i g m o i d$ 激活函数。
基于上述网络，首先来计算梯度 $\frac{\partial C}{\partial b_1}$ ，经由链式法则 $\frac{\partial C}{\partial b_1}=\frac{\partial C}{\partial a_4}\frac{\partial a_4}{\partial a_3}\frac{\partial a_3}{\partial a_2}\frac{\partial a_2}{\partial a_1}\frac{\partial a_1}{\partial b_1}$ ，得到梯度 $\frac{\partial C}{\partial b_1}$ 的表达式如下：
$\frac{\partial C}{\partial b_1} = \sigma^{'}(z_1)w_2 \underbrace{\sigma^{'}(z_2)w_3 \sigma^{'}(z_3)w_4\sigma^{'}(z_4) { \frac{\partial C}{\partial a_4}}}_{\frac{\partial C}{\partial b_2}}$

同理可得，
$\frac{\partial C}{\partial b_2} = \sigma^{'}(z_2)w_3 \underbrace{\sigma^{'}(z_3)w_4\sigma^{'}(z_4) { \frac{\partial C}{\partial a_4}}}_{\frac{\partial C}{\partial b_3}}$

$\frac{\partial C}{\partial b_3} = \sigma^{'}(z_3)w_4 \underbrace{\sigma^{'}(z_4) { \frac{\partial C}{\partial a_4}}}_{\frac{\partial C}{\partial b_4}}$

$\frac{\partial C}{\partial b_4} = \sigma^{'}(z_4) { \frac{\partial C}{\partial a_4}}$

通过比较 $\frac{\partial C}{\partial b_1}$ 、 $\frac{\partial C}{\partial b_2}$ 、 $\frac{\partial C}{\partial b_3}$ 、 $\frac{\partial C}{\partial b_4}$ 的表达式，可知除了拥有共同项 $\frac{\partial C}{\partial a_4}$ 外，前面隐藏层的梯度较后面隐藏层含有更多的 $w$ 和 $\sigma^{'}(z)$ 项。
使用标准方法初始化网络权重时，会使得权重符合一个均值为 $0$ ，标准差为 $1$ 的高斯分布，因此这些权重通常会满足 $w_j|<1$ 。
另一项 $\sigma^{'}(z)$ ，即 $s i g m o i d$ 函数的导数，其函数图如下：
在这里插入图片描述
易知其取值为 $（0，\frac{1}{4}]$ ，且在 $z = 0$ 处， $\sigma^{'}(0)=\frac{1}{4}$ 取得最大值。
由前述可知 $w\sigma^{'}(z) < \frac{1}{4}$ ,或者说 $w\sigma^{'}(z) < 1$ ，所有会有 $\frac{\partial C}{\partial b_1} < \frac{\partial C}{\partial b_2} < \frac{\partial C}{\partial b_3} < \frac{\partial C}{\partial b_4}$ ,也即前面隐藏层的梯度要小于后面隐藏层的梯度。
这就是梯度消失的原因。

三、参考资料

[1] 《深入浅出神经网络与深度学习》