梯度消失和梯度爆炸的一些处理方法

weixin_42924890

已于 2024-03-20 00:31:33 修改

阅读量920

点赞数 32

文章标签： pytorch 深度学习 python

于 2024-03-19 23:59:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42924890/article/details/136858825

版权

在这里是记录一下梯度消失或梯度爆炸的一些处理技巧。全当学习总结了如有错误还请留言，在此感激不尽。
权重和梯度的更新公式如下：
$\eta \cdot \nabla w$

个人通俗的理解梯度消失就是网络模型在反向求导的时候出现梯度值太小的问题，然而学习率一般也很小这就会导致权重在进行更新的时候，几乎不会发生变化，导致模型不收敛。

如果梯度值在更新过程中变成非常大，会导致网络权重的大幅更新，并因此使网络变得不稳定。在极端情况下，权重的值变得非常大，以至于溢出导致出现NaN，导致模型不收敛。

以下一些方法可以解决或者缓解梯度消失或梯度爆炸的情况。

1）梯度裁剪(Gradient Clipping)

直接对梯度进行数值上的约束，当梯度的范数超过某一阈值时，将其裁剪到该阈值以内，以此来防止梯度爆炸。
torch中接口如下

nn.utils.clip_grad_norm_(model.parameters(), clip_value)  # 默认是2范数

clip_grad_norm_() 函数的主要参数包括：

parameters：一个包含需要裁剪梯度的参数的迭代器或者是生成器，通常我们会传入model.parameters()。
max_norm：要裁剪到的最大范数值。如果梯度范数超过这个值，则会按比例缩放梯度。默认为无穷大。
norm_type：要计算的范数类型。通常设置为 2 表示 L2 范数（欧几里得范数），也可以设置为其他值如 1 表示 L1 范数。默认为 2。

clip_grad_norm_() 函数内部计算方式可以参考下式：

$clip\_value * \frac{x_{grad}}{||x_{grad}||}$
clip_value值确定一般是:

可视化梯度：在初步训练过程中，观察模型的梯度值是否出现过大，可以通过打印或可视化参数梯度的大小来判断。
经验范围：一些研究者和实践者建议将max_norm设置在 1 到 5 之间，或者梯度总和的初始平均值的某个倍数。

2）激活函数的选择

尽量少选择sigmoid和tanh等饱和性的激活函数，可以选择 ReLU及其变种等激活函数。

3）批量归一化(Batch Normalization, BN)

神经网络每一层学习到的分布都是无法预测的，前一层的输出即是下一层的输入，由于参数的更新，每一层的输入分布都在发生变化，导致网络很难收敛。如果说让一个batch的数据在网络结构中都服从同一种分布，将可以解决这个问题。

由于 BatchNorm 使得输入数据的分布更为集中和稳定，因此在网络中向传播时，梯度的变化受到输入数据分布变化的影响变小，有效地解决了梯度消失和梯度爆炸的问题。主要作用稳定网络内部的分布。

4）残差连接(Residual Connections / ResNet)

通过跨层的连接方式，网络保留了原始信息的输入，有助于维持梯度的有效流动，在一定程度上可以抑制梯度爆炸的现象。

5）初始化策略

使用合理的权重初始化方法，比如xavier初始化或He初始化，这些方法可以根据网络层的输入和输出节点数量来调整初始权重的分布，从而减少梯度消失的可能性。

6）门控机制(Gate Mechanisms)

专门设计来解决梯度消失问题的，可参考LSTM或者GRU网络模型。通过门控机制精确的管理着信息的存储、遗忘和更新等。门控机制本身并不直接防止梯度过大但是结合Gradient Clipping 可以有效的避免梯度爆炸的发生。

weixin_42924890

关注

32
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
梯度消失和梯度爆炸的一些处理方法

常见梯度消失和梯度爆炸的处理方法。
复制链接

扫一扫

weixin_42924890 CSDN认证博客专家 CSDN认证企业博客

码龄6年

39: 原创

8万+: 周排名

3万+: 总排名

2万+: 访问

: 等级

942: 积分

395: 粉丝

548: 获赞

16: 评论

422: 收藏

私信

关注

热门文章

分类专栏

python 4篇
bert 2篇
机器学习专栏 7篇
pandas 3篇
matplotlib 2篇

最新评论

matplotlib绘图二
普通网友: 支持一下，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
matplotlib绘图
普通网友: 博主的文章让我对这个主题有了全新的认识，细节描写非常到位，让我感受到了博主的深厚功底。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
激活函数理解
CSDN-Ada助手: 恭喜您写了第20篇博客，标题为“激活函数理解”！您对这一主题的深入探讨让读者受益匪浅。希望您能继续坚持写作，分享更多有价值的内容。下一步，或许您可以尝试探讨一些实际案例，结合具体的应用场景来讲解激活函数的作用，这样读者更容易理解和接受。期待您的下一篇作品！
RNN实战
CSDN-Ada助手: 恭喜用户发布第18篇博客《RNN实战》，内容相信又会给读者们带来新的启发和学习收获。不断坚持创作，展示自己的学习和思考成果，是非常值得肯定的。接下来可以考虑深入探讨RNN在特定领域的应用，或者结合其他深度学习模型进行比较分析，这样能够让读者更全面地了解相关知识。希望用户继续保持创作热情，共同进步！
Python 合并两张图片
CSDN-Ada助手: 恭喜您发布了新的博客文章！看到您分享的关于Python合并两张图片的教程，我感到非常兴奋。您的文章内容详细易懂，让我受益匪浅。接下来，我建议您可以尝试探索更多关于图片处理的主题，比如图片滤镜效果、图片裁剪等，相信您会有更多精彩的内容呈现给读者。期待您的下一篇作品！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。