梯度消失与梯度爆炸过程分析

最新推荐文章于 2024-04-19 21:06:51 发布

isyangwei

最新推荐文章于 2024-04-19 21:06:51 发布

阅读量194

点赞数

分类专栏：机器学习文章标签：神经网络深度学习人工智能

本文链接：https://blog.csdn.net/CAUC_yangxiao/article/details/109825100

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

梯度消失与梯度爆炸过程分析

定义

百度百科：在神经网络中，前面的隐藏层的学习速率远低于后面隐藏层的学习速率。

个人理解：所求得当前隐藏层参数的梯度太小，以至于我们认为几乎消失，导致参数的学习程度基本为零的情况。
$W_1=W_1+\Delta{W}\\\Delta{W}=\alpha \frac{\partial{Loss}}{\partial{w}}\\\alpha 为学习率$

举例

注：浅层网络几乎不会出现梯度消失的问题，所以在此我们举深层神经网络的例子

一些符号表示

$a^{(l)}$ ：第l层神经元输出值(具体当前层的那个神经元未指定，但不影响后续推导)

$z^{l}$ ：第l层神经元的线性计算结果

$g(z^{(l)})$ ：第l层的激活函数

正向传播神经网络计算通式
$z^{(l)}=w_{l}a^{(l-1)}+b_{l}\\a^{(l)}=g(z^{(l)})$

梯度消失过程

优化参数过程中，我们通常是基于梯度下降策略的，因此，如果我们要更新hidden layer1的权重信息，那么就必须求出其对应的偏导数，根据链式求导法则可知：
$\frac{\partial{Loss}}{\partial{w_1}}=\frac{\partial{Loss}}{\partial{a_3}}\frac{\partial{a_3}}{\partial{z_3}}\frac{\partial{z_3}}{\partial{a_2}}\frac{\partial{a_2}}{\partial{z_2}}\frac{\partial{z_2}}{\partial{a_1}}\frac{\partial{a_1}}{\partial{w_1}}$
其中：
$\frac{\partial{z_3}}{\partial{a_2}}=w_3\\\frac{\partial{z_2}}{\partial{a_1}}=w_2$
故，(3)可化简为：
$\frac{\partial{Loss}}{\partial{w_1}}=\frac{\partial{Loss}}{\partial{a_3}}\frac{\partial{a_3}}{\partial{z_3}}w_3\frac{\partial{a_2}}{\partial{z_2}}w_2\frac{\partial{a_1}}{\partial{w_1}}$

激活函数为sigmoid时

sigmoid导数图像

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ThdQKvgt-1605789783310)(D:\人工智能\sigmoid导数.jpg)]$

结论

如果使用标准化初始w，那么各个层次权重都为0-1之间的小数

激活函数的导数值是0-1之间小数，当网络层数到达一定深度时， $\frac{\partial{Loss}}{\partial{w}}$ 就会足够小，导致w的权重更新几乎消失，这也就被我们称为梯度消失

如果初始w足够大，以至w乘对应激活函数导数大于1

当网络层数达到一定深度时， $\frac{\partial{Loss}}{\partial{w}}$ 就会非常大，也就被称为梯度爆炸

因为博主自己也只是一个深度学习小白，所以难免可能会有错误的地方，欢迎大家一起交流、讨论。如果有幸解决了您的一些疑问，本人不胜感激!

isyangwei

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
梯度消失与梯度爆炸过程分析

梯度消失与梯度爆炸过程分析定义百度百科：在神经网络中，前面的隐藏层的学习速率远低于后面隐藏层的学习速率。个人理解：所求得当前隐藏层参数的梯度太小，以至于我们认为几乎消失，导致参数的学习程度基本为零的情况。W1=W1+ΔWΔW=α∂Loss∂wα为学习率W_1=W_1+\Delta{W}\\\Delta{W}=\alpha \frac{\partial{Loss}}{\partial{w}}\\\alpha 为学习率W1=W1+ΔWΔW=α∂w∂Lossα为学习率举例注：浅层网络几乎不会
复制链接

扫一扫