神经网络训练中的梯度消失和梯度爆炸问题

最新推荐文章于 2024-06-03 10:37:08 发布

dreamfantacy

最新推荐文章于 2024-06-03 10:37:08 发布

阅读量1.9k

点赞数 1

分类专栏：神经网络文章标签：梯度消失梯度爆炸

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dreamfantacy/article/details/100893391

版权

本文探讨了神经网络训练中常见的问题——梯度消失和梯度爆炸。梯度消失导致输入层权重更新缓慢，网络学习效果受限于浅层；梯度爆炸则造成网络不稳定，难以收敛。问题源于反向传播过程中的连乘效应，随着网络层数增加，现象愈发明显。通过链式求导法则分析，梯度更新可能指数级增长或衰减，影响网络优化。解决方案通常包括使用激活函数如ReLU、Batch Normalization及残差连接等。

摘要由CSDN通过智能技术生成

梯度消失和梯度爆炸

梯度消失的具体表现是，接近于输出层的权值更新相对正常，但是接近于输入层的权值基本不更新，或更新的非常慢。这样，深度网络的学习就等价于只有后几层的浅层网络的学习了。

梯度爆炸的具体的表现是，越远离输出层的隐藏层，其权值越大，由于会大幅度的更新网络参数，进而导致网络不稳定，最终无法收敛，或者权重值溢出，即输出值为NaN，而无法再更新权重。

产生的原因

梯度消失和梯度爆炸是由于神经网络的反向传播的连乘效应导致的，而且随着网络层的增多，出现的可能性会越大。

以上图中的4层网络层为例，假设每一层网络激活后的输出为 $f_{i}(x)$ ，其中x表示第i层的输入，也就是第i-1层的输出，那么， $f(i+1) = f(f_i*w_{i+1} + b_{i+1})$

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
神经网络训练中的梯度消失和梯度爆炸问题

梯度消失和梯度爆炸梯度消失的具体表现是，接近于输出层的权值更新相对正常，但是接近于输入层的权值基本不更新，或更新的非常慢。这样，深度网络的学习就等价于只有后几层的浅层网络的学习了。梯度爆炸的具体的表现是，越远离输出层的隐藏层，其权值越大，由于会大幅度的更新网络参数，进而导致网络不稳定，最终无法收敛，或者权重值溢出，即输出值为NaN，而无法再更新权重。产生的原因梯度消失和梯度爆炸是由于神经网...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。