神经网络梯度爆炸、梯度消失原因及解决方案

本文参考:深度网络梯度爆炸的原因、产生的影响和解决方法(常用激活函数)_凝眸伏笔的博客-CSDN博客

 产生原因:

网络层数太深,链式求导时的连乘效应会导致梯度爆炸或梯度消失。

如果梯度值均小于1,则会出现衰减;如果都大于1,则会出现梯度爆炸。

解决方案:

(1)梯度剪切:

在更新梯度时,如果梯度超过某个阈值,则就将其强制限定在某个范围内,防止梯度爆炸。

(2)优化激活函数

使用relu

使用leakrelu,解决relu 0区间神经元死亡的问题。

(3)batchnorm

f2​=f1​(wT∗x+b)对w求导,得到∂f2/∂w​​=∂f2/∂f1​ * ​​x,反向传播式子中有x存在,所以x的大小影响了梯度。batchnorm通过对每一层的输出统一均值和方差,消除了x放大和缩小的影响,进而解决梯度消失和梯度爆炸。

(4)resnet残差结构

残差中存在的跨层连接结构,使得在传播过程中,不会存在梯度全为0的情况,不会梯度消失

(5)LSTM

在更新时候通过“门”结构来记住前几次训练的残留记忆,这样不会梯度消失。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值