梯度消失(Gradient Vanishing)

最新推荐文章于 2024-01-08 12:29:31 发布

Wednesday Adams

最新推荐文章于 2024-01-08 12:29:31 发布

阅读量453

点赞数

分类专栏：机器学习文章标签：人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_55126913/article/details/128971818

版权

机器学习专栏收录该内容

18 篇文章 2 订阅

订阅专栏

1.引言

在之前的文章中我们提到过反向传播：https://blog.dotcpp.com/a/89149 ，在反向传播中，参数是根据求该参数和损失函数的梯度来更新的，也就是沿着梯度下降的方向来更新模型参数。

2.概念理解

那什么叫梯度消失呢？
梯度消失其实就是梯度已经差不多趋近于0了，参数已经更新不动了，从而导致收敛速度慢，训练时间无限延长。

3.原因

下面我们通过公式推导寻找梯度消失的原因
假设我们的模型参数是 $w$ ，而更新 $w$ 的方法是：

$w=w-\varepsilon\frac{\partial L}{\partial w}$

$\varepsilon$ 为学习率， $L$ 为损失函数。

假设我们的网络具有8层，设每一层的输入输出参数分别为： $I_1,O_1,W_1,...,I_8,O_8,W_8$

接下来，具体求解过程：

我们把数据分为两部分:

$w = w 1 w 2 * ........ * w 8$

$O = O_8 * (1-O_8) * ......... * O_1 * (1-O_1)$

也就是最终的梯度值为 $w o$ ,梯度消失也就意味着 $w * o$ 是一个很小很小的数.

可以o必然是一个很小的数，为什么.

$O_8 O_7 O_6 O_5 O_4 O_3 O_2 O_1$ 是sigmode的输出,我们以 $O_8 * (1 - O_8)$ 为列，进行分析:

$O_8$ 的输出范围在[0,1]之间，如果 $I_8>0$ 的， $O_8$ 接近1，但是 $1-O_8$ 肯定很小了， $O_8$ 和 $1-O_8$ 就是对立的.

$O_8 * (1-O_8)$ 很小，更何况这个很小的数还要和 $O_7 * (1-O_7) ，O_6 * (1-O_6) ...O_1 * (1-O_1)$ 这些小数相乘.

所以也许靠近输出层的那几层梯度下降也许比较ok，但是靠近输入层的梯度下降肯定没这么快.

解决的方案就是用 $R e l u$ 来替代 $s i g m o d$ ，为何因为这样 $O_7 O_8 O_1 ...$ 就会变为常数了（ $R e l u$ 输出对输入求导后为常数）。肯定会有比较好的梯度下沉。

Wednesday Adams

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
梯度消失(Gradient Vanishing)

在之前的文章中我们提到过反向传播：https://blog.dotcpp.com/a/89149 ，在反向传播中，参数是根据求该参数和损失函数的梯度来更新的，也就是沿着梯度下降的方向来更新模型参数。梯度消失其实就是梯度已经差不多趋近于0了，参数已经更新不动了，从而导致收敛速度慢，训练时间无限延长。所以也许靠近输出层的那几层梯度下降也许比较ok，但是靠近输入层的梯度下降肯定没这么快.可以o必然是一个很小的数，为什么.很小，更何况这个很小的数还要和。的输出范围在[0,1]之间，如果。是一个很小很小的数.
复制链接

扫一扫

专栏目录

Wednesday Adams CSDN认证博客专家 CSDN认证企业博客

码龄3年

58: 原创

117万+: 周排名

127万+: 总排名

5万+: 访问

: 等级

633: 积分

6: 粉丝

41: 获赞

7: 评论

215: 收藏

私信

关注

热门文章

分类专栏

最新评论

求1~n之间的所有平方数O(sqrt(n))
一个不想写代码的程序员: 数论知识，直接int(sqrt(n))就是答案了
Kmeans算法(附代码)
2301_80508542: 部分数据会丢失。。？
索引组织方式的最大文件大小
怎么睡不醒362: 没看明白两级不是x的三次方处以y的平方吗
索引组织方式的最大文件大小
m123456wer: 老师讲了两节课没明白，看见您的文章，秒懂
Leetcode——House Rubber
CSDN-Ada助手: 非常棒的博客！看到你对于Leetcode的探索和研究，非常激动。在此我想提出一个建议，希望能够鼓励你写出更多优质的技术博客。有没有想过将Leetcode的题目和机器学习相结合，探索如何使用机器学习来更好地解决Leetcode题目呢？我认为这将是一个非常有趣和富有挑战性的主题，期待你的精彩呈现！ 2023年博客之星「城市赛道」年中评选已开启（https://activity.csdn.net/creatActivity?id=10470&utm_source=blog_comment_city ），博主的原力值在所在城市已经名列前茅，持续创作就有机会成为所在城市的 TOP1 博主（https://bbs.csdn.net/forums/blogstar2023?typeId=3152981&utm_source=blog_comment_city），更有丰厚奖品等你来拿~。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。