机器学习：神经网络中的梯度消失和梯度爆炸

JacksonKim

已于 2023-04-23 21:56:38 修改

阅读量1.8w

点赞数 36

分类专栏：机器学习文章标签：神经网络深度学习人工智能机器学习

于 2020-05-11 22:38:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40765537/article/details/106063941

版权

机器学习专栏收录该内容

39 篇文章 20 订阅

订阅专栏

一、什么是梯度消失和梯度爆炸

1. 梯度消失(gradient vanishing problem)

我们知道神经网络在进行反向传播(BP)的时候会对参数W进行更新，梯度消失就是靠后面网络层(如layer3)能够正常的得到一个合理的偏导数，但是靠近输入层的网络层，计算的到的偏导数近乎零，W几乎无法得到更新。

2. 梯度爆炸(gradient exploding problem)

梯度爆炸的意思是，靠近输入层的网络层，计算的到的偏导数极其大，更新后W变成一个很大的数(爆炸)。

二、梯度消失和梯度爆炸产生的原因

产生梯度消失和梯度爆炸都是因为在神经网络中使用了sigmoid激活函数并且网络很深。为什么呢？

以下图的反向传播为例（假设每一层只有一个神经元且对于每一层 $y_i = \sigma (z_i) = \sigma(w_ix_i +b_i)$ ，其中 $\sigma$ 为sigmoid函数）

可以推导出

而sigmoid的导数如下图所示：

可见sigmoid的导数的最大值是0.25。然后我们观察上面的推导式，是三个 $w_i \sigma'(z_{i-1})$ 的连乘。

当初始时 $w \sigma'(z)$ < 1 , 这种概率是很大的，因为一般初始化w都是小于1，这时候，经过很多个小于1的数的连乘，最终得到的偏导数远远小于1，甚至接近于零，就产生了梯度消失的现象。这个时候，前面的hidden layer 1的权值更新会变得很慢，导致前面的层权值几乎不变，仍接近于初始化的权值，这就导致hidden layer 1相当于只是一个映射层，对所有的输入做了一个同一映射，这是此深层网络的学习就等价于只有后几层的浅层网络的学习了。

当初始时 $w \sigma'(z)$ > 1, 就是w的初始化值远远大于4，这时候，经过很多个大于1的数的连乘，最终的到的偏导数远远大于1，这就产生了梯度爆炸的现象。

无论是梯度消失还是梯度下降，都是使得神经网络的训练过程变得更为曲折，应该尽可能避免它们。

三、解决方法

1. 对于梯度消失问题，可以考虑用ReLU激活函数取代sigmoid激活函数。

2. 另外，LSTM的结构设计也可以改善RNN中的梯度消失问题。

3. 预训练加微调 -> 梯度消失和爆炸。此过程就是逐层“预训练”（pre-training）；在预训练完成后，再对整个网络进行“微调”（fine-tunning）

4. 梯度剪切->梯度爆炸。

5. 正则化->梯度爆炸。

6. batch normalization-> 梯度消失和爆炸。

7. 残差结构->梯度消失。残差可以很轻松的构建几百层，一千多层的网络而不用担心梯度消失过快的问题。

四、参考资料

【1】神经网络训练中的梯度消失与梯度爆炸 - 知乎

【2】深度神经网络的梯度不稳定问题--梯度消失与梯度爆炸 | ziyubiti

关注

36
点赞
踩
195

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄7年

87
原创

834
点赞

3047
收藏

145
粉丝

关注

私信

热门文章

分类专栏

机器学习 39篇
Java 1篇
数学 10篇
自然语言处理 3篇
笔记
linux 12篇
pytorch 3篇
数据结构与算法 1篇
并行计算 7篇
大数据 1篇
python 12篇
C++ 18篇
算法题 10篇
其他 1篇

最新评论

直观理解偏导数、方向导数和法向量和梯度
wing_thought: ‘(dx,dy)为该点指向任意方向的极小向量’出了点错误把，(dx,dy)应该是沿等高线在该点的切线方向的向量。
直观理解偏导数、方向导数和法向量和梯度
wing_thought: 豁然开朗
机器学习：mAP评价指标
qq_35210952: rank1 是1， 0.2 rank2 是0.667，0.4 和图上也对不上阿
C/C++：编译全过程——预处理、编译、汇编、链接（包含预处理指令：宏定义，文件包括、条件编译）
微小的鱼: 宏定义中的定义一个类似函数的宏，注意有分号必须加上括号！变成 if,你是想说的然后宏在分支跳转直接替换就会有 x+=1 与 if结合吧？
Pytorch: view()和reshape()的区别？他们与continues()的关系是什么？
日晨难再: 讲的很好，属于是全网为数不多写清楚了view能对非连续张量使用的博主。但是对于View的使用条件归纳有问题。Pytorch官方文档的描述是：“each new view dimension must either be a subspace of an original dimension, or only span across original dimensions ”，其中subspace，指的是类似因数分解的概念，例如4*3可以被分解为2*2*3，此时无需满足步幅的条件。如果不可视为分解的那些维度，可以进一步考虑步幅条件。比如4*4*8变成2*8*2*4，其中2*4由8分解，而2*8来源于4*4，因此前两个维度需要满足步幅条件。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。