深度学习里面的梯度消失和梯度爆炸现象

CVplayer111

已于 2022-09-08 18:38:21 修改

阅读量653

点赞数

分类专栏：深度学习各项知识整理文章标签：深度学习人工智能机器学习

于 2022-09-08 18:23:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/slamer111/article/details/126769397

版权

深度学习各项知识整理专栏收录该内容

16 篇文章

订阅专栏

梯度消失和梯度爆炸是深度学习中常见的问题，主要由反向传播过程中链式法则的连乘效应引起。sigmoid等激活函数可能导致梯度消失，而深层网络和大权重初始化可能导致梯度爆炸。为解决这些问题，可以采取权重正则化、使用ReLU激活函数、应用批量归一化（BN）以及引入残差网络。权重正则化限制权重大小，BN则通过规范化输出缓解影响。这些方法有助于稳定网络训练，提高模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、为什么会发生梯度消失或者梯度爆炸

目前优化神经网络的方法一般都是BP，根据损失函数计算的误差通过梯度进行反向传播，来修正神经网络参数。反向传播要用链式法则，就是连乘，梯度将以指数形式传播很容易导致消失和爆炸。

梯度消失：如果神经网络层数比较深，或者激活函数选择不合适，如sigmoid，它的梯度都小于0.25，会导致梯度消失。

梯度爆炸：如果神经网络层数比较深，或初始化权重值比较大，都会导致梯度爆炸。

二、如何解决

1.权重正则化，通过对网络权重做正则化来防止其过拟合，通过正则化项来限制网络权重大小，可以一定程度防止网络爆炸。如L1和L2

2.选择Relu这种激活函数，他的导数在正数区域恒为1.

3.BN，对输出进行规范化，消除了权重参数放大缩小带来的影响，进而解决了梯度消失和爆炸的影响。

4.加入残差网络

反向传播时的梯度和W权重和X数据都有关，权重正则化解决W，BN解决X。

三、Reference

深度学习中梯度消失和梯度爆炸的根本原因及其缓解方法_jiangtao129的博客-CSDN博客_relu 梯度爆炸

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

CVplayer111 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。