梯度消失和梯度弥散现象形成的原因和解决方法

1 梯度消失和梯度爆炸产生的原因

https://blog.csdn.net/yhily2008/article/details/80790476
https://zhuanlan.zhihu.com/p/33006526

在神经其网络的参数训练过程中,BP(Back Propagation)算法非常重要。BP神经网络工作流程分两步:(1)正向传播输入信号,输出分类信息(对于有监督学习而言,基本上都可归属于分类算法);(2)反向传播误差信息,调整网络的权值(通过微调网络参数,让下一轮的输出更加准确)。

产生梯度消失的根源是:深度神经网络的反向传播
我们构建深度神经网络是为了拟合由输入到输出的映射关系,
将损失函数计算的偏差通过梯度反向传播的方式来更新网络的权重,
拟合从输入到输出映射关系的最优的模型的过程就是为网络节点找到合适的参数的过程。
最优模型的条件下loss达到最小值。数学中计算函数最小值的方法适用于此,梯度下降法

以下从两个角度来分析梯度消失和梯度爆炸产生的原因:深层网络和选择了不合适的激活函数

(1)深层网络的角度

在这里插入图片描述
图片来自:https://zhuanlan.zhihu.com/p/33006526
f 表示每一层的激活函数,那么输出节点可以表示为,fi+1 = f(fi*wi+1) 目标基于梯度下降的方法,按负梯度的方向对权值进行调整。
权值调整量的表达式为(α表示学习率):
在这里插入图片描述
根据链式求导法逐层计算。
如果△w值大于1,随着网络层数的不断加深,最终梯度将以指数形式增加(梯度爆炸<

  • 3
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值