神经网络梯度爆炸、梯度消失原因及解决方案

最新推荐文章于 2024-06-16 12:00:00 发布

数据猴赛雷

最新推荐文章于 2024-06-16 12:00:00 发布

阅读量1.3k

点赞数

分类专栏：神经网络文章标签：神经网络深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/benben044/article/details/127373282

版权

神经网络专栏收录该内容

61 篇文章 9 订阅

订阅专栏

本文参考：深度网络梯度爆炸的原因、产生的影响和解决方法(常用激活函数)_凝眸伏笔的博客-CSDN博客

产生原因：

网络层数太深，链式求导时的连乘效应会导致梯度爆炸或梯度消失。

如果梯度值均小于1，则会出现衰减；如果都大于1，则会出现梯度爆炸。

解决方案：

（1）梯度剪切：

在更新梯度时，如果梯度超过某个阈值，则就将其强制限定在某个范围内，防止梯度爆炸。

（2）优化激活函数

使用relu

使用leakrelu，解决relu 0区间神经元死亡的问题。

（3）batchnorm

f2=f1(wT∗x+b)对w求导，得到∂f2/∂w=∂f2/∂f1 * x，反向传播式子中有x存在，所以x的大小影响了梯度。batchnorm通过对每一层的输出统一均值和方差，消除了x放大和缩小的影响，进而解决梯度消失和梯度爆炸。

（4）resnet残差结构

残差中存在的跨层连接结构，使得在传播过程中，不会存在梯度全为0的情况，不会梯度消失

（5）LSTM

在更新时候通过“门”结构来记住前几次训练的残留记忆，这样不会梯度消失。

数据猴赛雷

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
神经网络梯度爆炸、梯度消失原因及解决方案

梯度消失、梯度爆炸的原因及解决方案
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。