机器学习-梯度消失和梯度爆炸

Hank0317

已于 2023-02-03 11:41:28 修改

阅读量218

点赞数

分类专栏：机器学习文章标签：人工智能深度学习

于 2023-02-03 10:45:32 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fzz97_/article/details/128862048

版权

机器学习专栏收录该内容

7 篇文章

订阅专栏

反向传播算法的影响

上图为一个四层的全连接网络，假设每一层网络的输出为 $\text{[math]}$ ，其中 $\text{[math]}$ 代表第i层的激活函数，x代表第i层的输入，即第i-1层的输出，令 $\text{[math]}$ 和 $\text{[math]}$ 分别表示第i层的权重和偏置量，那么可以得出 $\text{[math]}$ ，可以简化为 $\text{[math]}$ 。

BP算法基于梯度下降策略，以目标函数的负梯度方向对参数进行调整，若给定学习率 $\text{[math]}$ ，则更新公式为：

$\text{[math]}$ △w

△w $\text{[math]}$

如果要更新上图中第二层的权重，根据链式求导法则，更新梯度信息：

△ $\text{[math]}$

很容易看出 $\text{[math]}$

其中 $\text{[math]}$ ，若此部分大于1，则层数增多，经过累乘，最终的梯度更新将以指数形式增加，即发生梯度爆炸；如果此部分小于1，则随着层数增多，求出的梯度更新信息将会以指数形式衰减，即发生梯度消失。

在深层网络中，不同层学习的速度差异很大，通常输出层及靠近输出层的隐层的权重更新速度较快，学习较好。靠近输入层的隐层学习较慢，有时甚至训练了很久，前几层的权值和刚开始的随机初始值差不多。若发生梯度消失，则前面几层的权重在学习过程中几乎未发生变化，即学习效果很差。

由此可见，梯度消失和爆炸的根本原因之一在于反向传播训练法则，属于天生不足。

激活函数的影响

激活函数选择不合适，如使用sigmoid函数，梯度消失就会非常明显。 $\text{[math]}$ 中导数部分的值小于1，经过累乘会变得非常小。

常见的sigmoid函数为对率函数，其函数图像及导数图像如下所示：

由图中可以看到sigmoid函数的导数最大不超过0.25。

同理，其他激活函数也一样。

解决方法

1.预训练加微调

基本思想是每次训练一个隐层，训练时将上一层隐结点的输出作为输入，而本层隐结点的输出作为下一层隐结点的输入，此过程就是逐层预训练。在训练完成后，再对整个网络进行微调，如利用BP算法对整个网络进行再训练。此思想可以理解为：先局部寻优，再整合起来全局寻优。

2.选择合适的激活函数

如选择Relu、Leaky Relu、ELU等激活函数。其思想非常简单，如果激活函数的导数为1，那么就不存在梯度消失和爆炸的问题了。

3.选择更好的结构

如选择LSTM和GRU。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。