梯度弥散和梯度爆炸

1. 什么是梯度弥散和梯度爆炸(发生原因)
  • 梯度弥散:由于导数的链式法则,连续多层小于1的梯度相乘会使梯度越来越小,最终导致某层梯度为0。
  • 梯度爆炸:由于导数的链式法则,连续多层大于1的梯度相乘会使梯度越来越大,最终导致梯度太大的问题。
2. 梯度弥散和梯度爆炸会造成什么影响
  • 梯度弥散 会使得网络前几层的参数不再更新,最终导致模型的性能很差
  • 梯度爆炸 会使得某层的参数w过大,造成网络不稳定,极端情况下,数据数据乘以一个大w发生溢出,得到NAN值。
3. 如何解决梯度弥散和梯度爆炸问题
  • 梯度爆炸:
    • 梯度截断方法,即当梯度超过一个阈值时,让他变小点,例如Gradient Clip
    • 权重正则化方法(on the difficulity of training rnn,2013)
    • 从rnn ->lstm
    • 使用relu激活函数,梯度为1
  • 梯度弥散:
4. 如何判断训练中发生了梯度爆炸和梯度弥散
  • 梯度爆炸:
    • 模型不稳定,训练损失显著变化
    • 模型损失变成NAN
    • 梯度快速增大
    • 每个节点的和层的误差梯度都超过1
  • 梯度弥散:
    • 前几层的网络参数不更新
    • 梯度很接近0
  • 9
    点赞
  • 52
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值