梯度消失和梯度弥散现象形成的原因和解决方法

最新推荐文章于 2024-04-25 21:40:58 发布

shuyeah

最新推荐文章于 2024-04-25 21:40:58 发布

阅读量3.8k

点赞数 3

文章标签：神经网络机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43227526/article/details/106879593

版权

1 梯度消失和梯度爆炸产生的原因

https://blog.csdn.net/yhily2008/article/details/80790476
https://zhuanlan.zhihu.com/p/33006526

在神经其网络的参数训练过程中，BP(Back Propagation)算法非常重要。BP神经网络工作流程分两步：（1）正向传播输入信号，输出分类信息（对于有监督学习而言，基本上都可归属于分类算法）；（2）反向传播误差信息，调整网络的权值（通过微调网络参数，让下一轮的输出更加准确）。

产生梯度消失的根源是：深度神经网络的反向传播
我们构建深度神经网络是为了拟合由输入到输出的映射关系，
将损失函数计算的偏差通过梯度反向传播的方式来更新网络的权重，
拟合从输入到输出映射关系的最优的模型的过程就是为网络节点找到合适的参数的过程。
最优模型的条件下loss达到最小值。数学中计算函数最小值的方法适用于此，梯度下降法

以下从两个角度来分析梯度消失和梯度爆炸产生的原因：深层网络和选择了不合适的激活函数。

（1）深层网络的角度

在这里插入图片描述
图片来自：https://zhuanlan.zhihu.com/p/33006526
f 表示每一层的激活函数，那么输出节点可以表示为，fi+1 = f(fi*wi+1) 目标基于梯度下降的方法，按负梯度的方向对权值进行调整。
权值调整量的表达式为（α表示学习率）：
在这里插入图片描述
根据链式求导法逐层计算。
如果△w值大于1，随着网络层数的不断加深，最终梯度将以指数形式增加（梯度爆炸<

最低0.47元/天解锁文章

关注

3
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
梯度消失和梯度弥散现象形成的原因和解决方法

1 梯度消失和梯度爆炸产生的原因https://blog.csdn.net/yhily2008/article/details/80790476在神经其网络的参数训练过程中，BP(Back Propagation)算法非常重要。BP神经网络工作流程分两步：（1）正向传播输入信号，输出分类信息（对于有监督学习而言，基本上都可归属于分类算法）；（2）反向传播误差信息，调整网络的权值（通过微调网络参数，让下一轮的输出更加准确）。基于loss函数反向微分调参（链式求导的方法），寻求最优解。隐藏层中的激活函
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。