【AI知识点】梯度消失（Vanishing Gradient）和梯度爆炸（Exploding Gradient）

AI完全体

已于 2024-10-08 00:10:53 修改

阅读量392

点赞数 13

分类专栏： AI知识点文章标签：人工智能机器学习深度学习深层神经网络（DNN）梯度反向传播算法链式法则

于 2024-10-07 15:58:59 首次发布

本文链接：https://blog.csdn.net/weixin_43221845/article/details/142731204

版权

AI知识点专栏收录该内容

45 篇文章 0 订阅

订阅专栏

梯度消失（Vanishing Gradient） 和梯度爆炸（Exploding Gradient） 是神经网络训练中的常见问题，特别是在深层神经网络（DNN）或递归神经网络（RNN）中。这两者主要与反向传播算法中的梯度计算有关，它们会导致模型在训练过程中收敛困难，甚至无法正确学习。

1. 梯度消失（Vanishing Gradient）

a. 定义

梯度消失问题是指在训练深层神经网络时，随着网络层数的增加，反向传播过程中早期层（靠近输入层）的梯度逐渐接近于零，导致这些层的参数几乎无法更新。这样，网络中的某些参数将无法被有效学习，模型训练停滞不前。

b. 数学解释

在神经网络中，反向传播算法用于通过链式法则（Chain Rule）计算损失函数相对于网络中每一层权重的偏导数。在深层网络中，链式法则会不断地乘以每一层的激活函数的导数。如果激活函数的导数非常小（小于 1），随着层数增加，梯度会逐层缩小。

对于每一层 $l$ ，反向传播的梯度计算公式为：
$\frac{\partial \mathcal{L}}{\partial W^{[l]}} = \frac{\partial \mathcal{L}}{\partial z^{[l]}} \cdot \frac{\partial z^{[l]}}{\partial W^{[l]}}$

如果层数很多，那么 $\frac{\partial \mathcal{L}}{\partial z^{[l]}}$ 中的每一项都会涉及前一层的梯度，最终导致梯度的乘积在反向传播过程中逐渐变小。这样在靠近输入层时，梯度几乎为 0，参数更新幅度极小，导致网络的训练效率大大降低，甚至无法训练。

c. 常见原因

激活函数问题：某些常用的激活函数（如 Sigmoid 和 Tanh）在输入值较大或较小时，它们的导数趋近于零，导致梯度在反向传播过程中缩小。例如：
- 对于 Sigmoid 函数：
  $\text{Sigmoid}(z) = \frac{1}{1 + e^{-z}}$
  其导数：
  $\frac{d}{dz} \text{Sigmoid}(z) = \text{Sigmoid}(z) \cdot (1 - \text{Sigmoid}(z))$
  当 $z$ 非常大或非常小时，导数接近 0。
深度网络结构：网络层数越深，梯度乘积的次数越多，梯度消失的风险越大。

d. 梯度消失的影响

网络中的靠近输入层的权重更新非常缓慢甚至几乎不更新，导致这些层在训练中无法学习有效的表示。
网络的训练效率降低，模型很难收敛，特别是在处理复杂的任务时效果不佳。

e. 解决方法

使用合适的激活函数：
- ReLU（Rectified Linear Unit）：ReLU 是一种在正值区域保持线性，而在负值区域输出为零的激活函数。它的导数在正区间为 1，因此能有效缓解梯度消失问题：
  $\text{ReLU}(x) = \max(0, x)$
  它的导数为：
  $\frac{d}{dx} \text{ReLU}(x) = \begin{cases} 1 & \text{if } x > 0 \\ 0 & \text{if } x \leq 0 \end{cases}$
- 其他变种激活函数（如 Leaky ReLU、ELU）也能有效缓解梯度消失问题。
使用残差网络（ResNet）：
- 残差网络（ResNet） 通过引入跳跃连接（Skip Connections），允许梯度在反向传播过程中绕过一些层，缓解了梯度消失问题。
批归一化（Batch Normalization）：
- Batch Normalization 通过在每一层归一化激活值，使得输出的分布更加稳定，从而减少了梯度消失的发生。

2. 梯度爆炸（Exploding Gradient）

a. 定义

梯度爆炸是指在训练深层神经网络时，反向传播过程中梯度变得非常大，导致参数更新的幅度过大，最终导致模型的权重值溢出，损失函数出现异常情况（如 NaN），模型无法收敛。

b. 数学解释

梯度爆炸的问题与梯度消失相反。如果反向传播过程中每一层的梯度都大于 1，那么在链式法则的作用下，梯度会不断累积放大，最终导致前几层的梯度值过大，导致参数更新幅度过大，甚至可能使权重变得非常大。

在深层网络中，每层梯度的乘积计算公式为：
$\frac{\partial \mathcal{L}}{\partial W^{[l]}} = \frac{\partial \mathcal{L}}{\partial z^{[l]}} \cdot \frac{\partial z^{[l]}}{\partial W^{[l]}}$

如果梯度 $\frac{\partial \mathcal{L}}{\partial z^{[l]}}$ 的值非常大，那么靠近输入层的梯度将迅速增长，导致梯度爆炸。

c. 常见原因

权重初始化不当：如果网络的权重初始化得过大，那么在反向传播中，梯度的值可能会不断放大，导致梯度爆炸。
学习率过大：如果学习率设置过高，那么每次梯度更新的步长就会过大，导致权重迅速变大，引发梯度爆炸。
深度网络结构：在非常深的网络中，累积的梯度可能会迅速增大，导致前几层梯度的指数式增长。

d. 梯度爆炸的影响

梯度过大导致网络的权重更新幅度过大，网络的训练变得不稳定，甚至导致权重值溢出。
损失函数可能出现 NaN（非数值），训练中止或模型无法收敛。

e. 解决方法

梯度裁剪（Gradient Clipping）：
- 梯度裁剪 是一种常用的方法，在每次反向传播时，如果梯度的值超过了某个阈值，就将其裁剪到该阈值范围内，防止梯度过大。这样可以有效避免梯度爆炸。
权重初始化：
- 使用适当的权重初始化方法可以避免梯度爆炸。常见的初始化方法包括：
  - Xavier 初始化：适用于 Sigmoid 和 Tanh 激活函数，保持权重的方差在每一层中保持平衡。
  - He 初始化：适用于 ReLU 激活函数，它通过缩小初始权重范围减少梯度爆炸的可能性。
降低学习率：
- 如果学习率过高，可以适当调低学习率，使梯度更新时的步长减小，减少爆炸的可能性。
使用批归一化（Batch Normalization）：
- 批归一化 也可以缓解梯度爆炸。它在每一层对激活值进行标准化，防止输出值过大，从而限制了梯度的增大。