梯度消失和梯度爆炸

最新推荐文章于 2024-06-16 12:00:00 发布

思考熊

最新推荐文章于 2024-06-16 12:00:00 发布

阅读量332

点赞数

分类专栏：项目技术文章标签：深度学习梯度消失梯度爆炸 DL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jichangzhen/article/details/82940739

版权

项目技术专栏收录该内容

14 篇文章 1 订阅

订阅专栏

1.梯度爆炸

1）原因

在深层网络或递归神经网络中，误差梯度在更新中累积得到一个非常大的梯度，这样的梯度会大幅度更新网络参数，进而导致网络不稳定。在极端情况下，权重的值变得特别大，以至于结果会溢出（NaN值，无穷与非数值）。当梯度爆炸发生时，网络层之间反复乘以大于1.0的梯度值使得梯度值成倍增长。

2）现象

模型无法在训练数据上收敛（比如，损失函数值非常差）；
模型不稳定，在更新的时候损失有较大的变化；
模型的损失函数值在训练过程中变成NaN值；

3）解决方案

梯度爆炸更容易处理一些。因为梯度爆炸的时候，我们的程序会收到NaN错误。

可以设置一个梯度阈值，当梯度超过这个阈值的时候可以直接截取。
可以使用权重正则化
使用长短周期记忆网络
使用修正线性激活函数
重新设计网络模型

2梯度消失

梯度消失更难检测，有三种方法应对梯度消失问题：

合理的初始化权重值。初始化权重，使每个神经元尽可能不要取极大或极小值，以躲开梯度消失的区域。
使用relu代替sigmoid和tanh作为激活函数。
使用其他结构的RNNs，比如长短时记忆网络（LTSM）和Gated Recurrent Unit（GRU），这是最流行的做法。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
梯度消失和梯度爆炸

1.梯度爆炸1）原因在深层网络或递归神经网络中，误差梯度在更新中累积得到一个非常大的梯度，这样的梯度会大幅度更新网络参数，进而导致网络不稳定。在极端情况下，权重的值变得特别大，以至于结果会溢出（NaN值，无穷与非数值）。当梯度爆炸发生时，网络层之间反复乘以大于1.0的梯度值使得梯度值成倍增长。 2）现象模型无法在训练数据上收敛（比如，损失函数值非常差）；模型不稳定，在更新的...
复制链接

扫一扫

专栏目录

思考熊 CSDN认证博客专家 CSDN认证企业博客

码龄9年

152: 原创

39万+: 周排名

78万+: 总排名

19万+: 访问

: 等级

3356: 积分

91: 粉丝

81: 获赞

35: 评论

204: 收藏

私信

关注

热门文章

分类专栏

数据结构 23篇
数论 25篇
图论 26篇
搜索 14篇
字符串 10篇
计算几何 24篇
动态规划 9篇
随心杂记 9篇
项目技术 14篇
机器学习 16篇

最新评论

Rouge的安装与使用
JasonLiu0419: step2 有expat问题的建议可以参考https://blog.csdn.net/ex_xyz/article/details/105484443
卷积神经网络--代码实现
思考熊: 里面包括了，可直接运行
卷积神经网络--代码实现
下课别走: 没有输入数据吗？
三维几何函数库
chuwanchang: 很好，面向对象的思想提现的非常好！
卷积神经网络--代码实现
思考熊回复金石开1510: 本code无语法错误，放到IDE中可直接运行，如果复制不当，有格式缩进的错误，IDE会有报错，根据报错信息定位到某行即可

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。