【机器学习】038_梯度消失、梯度爆炸

最新推荐文章于 2024-07-12 15:56:49 发布

Cyan.__

最新推荐文章于 2024-07-12 15:56:49 发布

阅读量650

点赞数 1

分类专栏：机器学习文章标签：机器学习人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Yukiice/article/details/134506347

版权

机器学习专栏收录该内容

45 篇文章 1 订阅

订阅专栏

一、原因

神经网络梯度

· 假设现在有一个 $d$ 层的神经网络，每层的输出为一个对输入作 $f_t$ 变换的函数结果

· 用 $h^t$ 来表示第 $t$ 层的输出，那么有下列公式：

$h^t = f_t(h^{t-1})$

· 链式法则计算损失 $l$ 关于某一层某个参数 $w_t$ 的梯度：

$\frac{\partial l}{\partial w_t}=\frac{\partial l}{\partial h^d}\frac{\partial h^d}{\partial h^{d-1}}...\frac{\partial h^t}{\partial w_t}$

· 注意到， $h^t$ 为向量，这相当于一个 d-t 次的矩阵乘法

这个传递可能造成以下问题：

· 假设每次的梯度为1.5，但随着神经网络的规模变大，往后传递过去可能就有 $1.5^{100}=4*10^{17}$ 这么大，从而产生梯度爆炸。

· 假设每次的梯度为0.8，同样的道理，传递过去可能有 $0.8^{100}=2*10^{-10}$ 这么小，从而使模型最后的变化幅度很小，出现梯度消失。

二、梯度消失

假设用sigmoid函数作为激活函数

· 导数的问题是，当输入相对较大或者较小时，求导计算之后，每次向上传递的梯度会变得很小

· 累乘起来之后，这个值可能就会变得更小

可能造成的问题：

· 梯度值非常接近0，使得模型无法训练，每次训练改变幅度非常小

· 在神经网络较深时，对于底部层尤为严重

· 反向传播时，顶部的训练可能较好，拿到的梯度较正常

· 越到底部，梯度越小，底部层无法训练，使得神经网络无法变深

三、梯度爆炸

假设我们使用ReLU函数作为隐藏层的激活函数

· ReLU激活函数的导数会使大于0的输出求导后都是1，小于等于0的输出求导后都是0

· 首先将链式法则的求导公式代入ReLU激活函数转化一下，得到下式

· 这时， $h^{t-1}$ 与 $w_t$ 相乘后再在ReLU函数里求导的结果就是0或1，那么每次传递的就是 $w_t$ 转置值

· 如果中间层 d-t 很大，那么最后累乘的结果就会很大，最终导致梯度爆炸

可能造成的问题：

· 值超过上限（如16位浮点数，可能数值上溢）

· 对学习率非常敏感

· 若学习率较大—大参数值—更大的梯度

· 若学习率较小—训练效果小

· 需要不断调整学习率

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】038_梯度消失、梯度爆炸

【学习笔记】机器学习_038：学习了梯度消失与梯度爆炸的原理，明确了两者可能带来的一些坏处。
复制链接

扫一扫

专栏目录

Cyan.__ CSDN认证博客专家 CSDN认证企业博客

码龄2年

47: 原创

41万+: 周排名

8万+: 总排名

9194: 访问

: 等级

506: 积分

23: 粉丝

34: 获赞

15: 评论

38: 收藏

私信

关注

热门文章

分类专栏

Linux 1篇
机器学习 45篇
C++ 1篇

最新评论

【机器学习】044_Kaggle房价预测（机器学习模型实战）
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
【机器学习】040_理解偏差与方差
白话机器学习: 博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，期待博主持续带来更多好文
【机器学习】041_模型开发迭代过程
白话机器学习: 内容丰富图文并茂，认真看完收获很大。思路清晰细节满满，支持大佬优质好文。
【机器学习】019_缺失值处理
CSDN-Ada助手: 恭喜你写完了第20篇博客！标题看起来非常有意思，关于缺失值处理的内容一定会对读者有所帮助。你在机器学习领域的持续创作让人佩服，真的很高兴看到你的进步。在下一步的创作中，或许可以考虑分享一些关于特征选择或者模型评估的技巧，这些主题也是非常受欢迎的。再次恭喜你，并期待你未来更多博客的发布！
【机器学习】001_监督学习与非监督学习
CSDN-Ada助手: 非常恭喜你开始了博客创作的旅程！标题看起来非常有吸引力，机器学习的内容一直备受关注。监督学习与非监督学习是机器学习中的两个重要概念，期待你能够深入探讨这两个主题，给读者带来更多的见解和启发。在下一步的创作中，或许可以考虑介绍一些具体的监督学习和非监督学习的算法或示例，这样读者能够更好地理解它们的应用和区别。再次祝贺你的第一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。