梯度消失与梯度爆炸的问题小结

最新推荐文章于 2024-10-17 15:50:21 发布

笔写落去

最新推荐文章于 2024-10-17 15:50:21 发布

阅读量351

点赞数 9

分类专栏：深度学习文章标签：深度学习机器学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_55383558/article/details/135402810

版权

深度学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

本文探讨了深度学习中梯度爆炸和梯度消失的问题，涉及初始化方案、非线性激活函数（如sigmoid）的影响，以及它们如何影响模型训练过程中的数值稳定性。通过理解这些问题，有助于优化算法的性能和防止训练过程中的数值问题。

摘要由CSDN通过智能技术生成

本文参考李沐老师动手深度学习,上篇激活函数有遇到这个问题我们来深入探讨一下

文章目录

一、梯度爆炸

二、梯度爆炸的问题

三、梯度消失

四.梯度消失的问题

前言

到目前为止，我们实现的每个模型都是根据某个预先指定的分布来初始化模型的参数。有人会认为初始化方案是理所当然的，忽略了如何做出这些选择的细节。甚至有人可能会觉得，初始化方案的选择并不是特别重要。相反，初始化方案的选择在神经网络学习中起着举足轻重的作用，它对保持数值稳定性至关重要。此外，这些初始化方案的选择可以与非线性激活函数的选择有趣的结合在一起。我们选择哪个函数以及如何初始化参数可以决定优化算法收敛的速度有多快。糟糕选择可能会导致我们在训练时遇到梯度爆炸或梯度消失。

4.8. 数值稳定性和模型初始化 — 动手学深度学习 2.0.0 documentation (d2l.ai)

一、梯度爆炸

首先我们就需要回顾一下反向传播求导的计算.也就是我们的链式法则,以及对梯度下降法的原理大致了解.

这个d-t很大也就是我们的深度很大这样累乘起来就会得到一个很大很大的值.

二、梯度爆炸的问题

三、梯度消失

最典型的例子就是我们的sigmoid函数,这个函数我们在激活函数中简单了解了一下什么叫梯度消失.

蓝色线为sigmoid函数图像,黄色是sigmoid梯度.

可见当梯度很小时,深度越深,这样累乘起来就会得到很小的数.导致梯度变化很小.

四.梯度消失的问题

梯度反向传播时对于底部,通过链式法则的累乘,梯度变化很小,所以跟那些深度很小的神经网络差不多.

总结

当数值过大或过小时会导致数值问题.

常常发生在深度模型当中,因为会对n个累乘.

关注

9
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

笔写落去 CSDN认证博客专家 CSDN认证企业博客

码龄4年

43: 原创

110万+: 周排名

24万+: 总排名

5万+: 访问

: 等级

969: 积分

408: 粉丝

504: 获赞

26: 评论

615: 收藏

私信

关注

热门文章

分类专栏

最新评论

Java实现五子棋小游戏(附思路讲解,全部代码,游戏截图)
2302_82216537: 字体重叠怎么办什么设置的问题
diamond数据集探索及可视化Python
小百事.: coef = data.corr() coef 请问为什么我的热力图它会把'cut'和'color'搞进去，然后报错不能转换为float。而您的并没有尝试把cut和color弄进热力图里。
深度学习进行数据增强(实战篇)
征途黯然.: 深度学习进行数据增强实战篇文章非常出色，真的很棒。
数据结构及单链表例题(下)
白话机器学习: 写的非常详细，是一篇优质博客，干货满满，让我有了全新的认识，感谢博主分享，让我学到了很多，支持支持。
数据结构二叉树创建及例题(上)
白话机器学习: 写的非常详细，是一篇优质博客，干货满满，让我有了全新的认识，感谢博主分享，让我学到了很多，支持支持。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

笔写落去 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。