链式法则-梯度更新公式推导（手写笔记）

最新推荐文章于 2024-06-19 18:17:21 发布

图灵机学长

最新推荐文章于 2024-06-19 18:17:21 发布

阅读量2.1k

点赞数 3

分类专栏：统计学习方法2-李航文章标签：神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/HPGaa/article/details/119297269

版权

统计学习方法2-李航专栏收录该内容

3 篇文章 2 订阅

订阅专栏

虽然以前学过导数、偏导、梯度之类的相关知识，但时间久远导致总感觉晕晕乎乎的，于是自己推导一下具有一个隐藏层的神经网络的梯度反向传播公式，希望对大家有帮助。

笔记中指出了为什么会存在梯度消失以及梯度爆炸现象。

梯度消失

主要是由于激活函数的导数值域通常比较小，当网络较深时，导数的连乘会导致该值越来越趋于0，从而导致靠近输出端的权重能够得到更新，而越靠近输入端的权重无法得到更新，最终导致学习效果不佳。

梯度爆炸

从公式中可以看出，梯度的反向传播与权重本身的值也有关系，当权重初始值特别大时，会导致反向传播时偏导数很大，即发生梯度爆炸现象。

因此我们在训练网络时应避免这两种现象，解决或者说减小梯度消失的办法是设计新的激活函数，比如ReLU激活函数就比较好的解决了当输出大于0时的梯度消失问题（当输出小于0时问题依然存在），这几是为什么目前绝大部分的神经网络都用ReLU作为激活函数。
而梯度爆炸主要就是通过设置较小的初始化权重来解决。

看到这里相信大家一定有所收获吧！！follow me，不定期更新学习笔记和思考。（注：最近主要在学习统计学习方法第2版-李航，有时间会把学到的知识点整理出来分享给大家）
在这里插入图片描述

图灵机学长

关注

3
点赞
踩
14

收藏

觉得还不错? 一键收藏
4
评论
链式法则-梯度更新公式推导（手写笔记）

虽然以前学过导数、偏导、梯度之类的相关知识，但时间久远导致总感觉晕晕乎乎的，于是自己推导一下具有一个隐藏层的神经网络的梯度反向传播公式，希望对大家有帮助。笔记中指出了为什么会存在梯度消失以及梯度爆炸现象。梯度消失主要是由于激活函数的导数值域通常比较小，当网络较深时，导数的连乘会导致该值越来越趋于0，从而导致靠近输出端的权重能够得到更新，而越靠近输入端的权重无法得到更新，最终导致学习效果不佳。梯度爆炸从公式中可以看出，梯度的反向传播与权重本身的值也有关系，当权重初始值特别大时，会导致反向传播时偏导数
复制链接

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。