梯度消失/爆炸原因及解决办法

最新推荐文章于 2024-04-29 23:36:24 发布

AI剑客

最新推荐文章于 2024-04-29 23:36:24 发布

阅读量137

点赞数

分类专栏： AI

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43258953/article/details/103055928

版权

AI 专栏收录该内容

149 篇文章 9 订阅

订阅专栏

梯度消失/爆炸原因：
浅层的梯度计算需要后面各层的权重及激活函数导数的乘积,因此可能出现前层比后层的学习率小(vanishing gradient)或大(exploding)的问题,所以具有不稳定性.那么如何解决呢?
需要考虑几个方面:

1.权重初始化
使用合适的方式初始化权重, 如ReLU使用MSRA的初始化方式, tanh使用xavier初始化方式，或者加载预训练权重进行训练。

2.激活函数选择
激活函数要选择ReLU等梯度累乘稳定的.由于梯度的公式包含每层激励的导数以及权重的乘积,因此让中间层的乘积约等于1即可.但是sigmoid这种函数的导数值又与权重有关系(最大值1/4,两边对称下降),所以含有sigmoid的神经网络不容易解决,输出层的activation大部分饱和,因此不建议使用sigmoid.ReLU在自变量大于0时导数为1,小于0时导数为0,因此可以解决上述问题.

3.学习率
一种训练优化方式是对输入做白化操作(包括正规化和去相关), 目的是可以选择更大的学习率. 现代深度学习网络中常使用Batch Normalization(包括正规化步骤,但不含去相关). (All you need is a good init. If you can’t find the good init, use Batch Normalization.)

总结：由于sigmoid,ReLU等函数的梯度都在[0,1]以内，所以不会引发梯度爆炸问题。而梯度爆炸需要采用梯度裁剪、BN、设置较小学习率等方式解决。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
梯度消失/爆炸原因及解决办法

梯度消失/爆炸原因：浅层的梯度计算需要后面各层的权重及激活函数导数的乘积,因此可能出现前层比后层的学习率小(vanishing gradient)或大(exploding)的问题,所以具有不稳定性.那么如何解决呢?需要考虑几个方面:1.权重初始化使用合适的方式初始化权重, 如ReLU使用MSRA的初始化方式, tanh使用xavier初始化方式，或者加载预训练权重进行训练。2.激活函数选...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。