梯度消失与梯度爆炸

最新推荐文章于 2023-08-17 11:12:00 发布

hey-yahei

最新推荐文章于 2023-08-17 11:12:00 发布

阅读量664

点赞数

文章标签：深度学习机器学习神经网络

本文链接：https://blog.csdn.net/qq_20759449/article/details/105042658

版权

在深度学习中，梯度消失和梯度爆炸是常见问题，影响模型训练。解决方法包括随机初始化（如Xavier和He初始化）、使用ReLU等非饱和激活函数、批量归一化、梯度裁剪以及复用预训练层。激活函数的选择对模型性能至关重要，例如ReLU及其变体在防止梯度消失方面优于sigmoid和tanh，但RNN中仍偏好使用tanh来避免数值膨胀。批量归一化可以加速训练并稳定模型，但预测阶段会增加计算负担。梯度裁剪用于限制梯度幅值，防止梯度爆炸。预训练层的复用可以加速新任务的训练并提高模型性能。

摘要由CSDN通过智能技术生成

原文链接：https://www.yuque.com/yahei/hey-yahei/gradient_vanish_explode

在深度学习任务中，随着层数的增加，因为反向传播的链式求导规则，梯度容易出现指数形式地减小或增长，从而导致梯度消失（非常小，训练缓慢）或梯度爆炸（非常大，训练不稳定）现象的发生。
相比CNN，RNN更容易出现梯度消失和梯度爆炸问题，这一点在《梯度消失与梯度爆炸 - 为什么RNN通常不用ReLU？ | Hey~YaHei!》中有一些简单的讨论。

参考：

解决梯度消失和爆炸的常用技术（本文只讨论前五项）：

【减少爆炸】合理的随机初始化策略（Xavier Initialization、He Initialization等）
【减少消失】使用非饱和函数作为激活函数（如ReLU）
【减少消失和爆炸】批量归一化（Batch Normalization, BN）
【减少爆炸】梯度裁剪（Gradient Clipping）
【减少消失和爆炸】复用预训练层
【较少爆炸】权重正则化（Weights Regularization）
【减少消失】残差结构
【减少消失】LSTM

随机初始化

参考：《深度学习500问 - Ch03深度学习基础 - 3.8权重偏差初始化》
模型的训练需要对参数进行初始化，然后用反向传播算法和梯度下降法更新参数，如何初始化参数是有讲究的。通常会随机初始化为一些相对比较小的数值，防止参数过大导致梯度爆炸；但也不能太小，否则梯度太小，收敛就太慢。
考虑一些简单的初始化方式，

前向传播：
$a_1^{(2)} = f(W_{11}^{(1)} x_1 + W_{12}^{(1)} x_2 + W_{13}^{(1)} x_3 + b_1^{(1)}) \\ a_2^{(2)} = f(W_{21}^{(1)} x_1 + W_{22}^{(1)} x_2 + W_{23}^{(1)} x_3 + b_2^{(1)}) \\ a_3^{(2)} = f(W_{31}^{(1)} x_1 + W_{32}^{(1)} x_2 + W_{33}^{(1)} x_3 + b_3^{(1)}) \\ h_{W,b}(x) = a_1^{(3)} = f(W_{11}^{(2)} a_1^{(2)} + W_{12}^{(2)} a_2^{(2)} + W_{13}^{(2)} a_3^{(2)} + b_1^{(2)})$

反向传播：
$\begin{aligned} \frac{\partial J(W,b;x,y)}{\partial W_{ij}^{(l)}} &= a_j^{(l)} \delta_i^{(l+1)} \\ \frac{\partial J(W,b;x,y)}{\partial b_{i}^{(l)}} &= \delta_i^{(l+1)} \end{aligned}$
其中， $\delta^{(l)}$ 是第 $l$ 层的输出误差，
$\delta_i^{(l)} = (\sum_{j=1}^{s_{t+1}} W_{ji}^{(l)} \delta_j^{(l+1)} ) f^{\prime}(z_i^{(l)})$