梯度消失和梯度爆炸_梯度消失、爆炸的原因及解决办法

最新推荐文章于 2024-06-16 12:00:00 发布

weixin_39683172

最新推荐文章于 2024-06-16 12:00:00 发布

阅读量1.2k

点赞数

文章标签：梯度消失和梯度爆炸

本文链接：https://blog.csdn.net/weixin_39683172/article/details/111391745

版权

本文探讨了深度学习中梯度消失和梯度爆炸的问题，介绍了其原因并提出解决方法，包括预训练加微调、梯度剪切与正则化、合理选择激活函数和权重初始化、批量归一化以及残差网络结构的应用。通过对梯度更新规则的分析，展示了如何通过这些技术改善深层神经网络的训练效果。

摘要由CSDN通过智能技术生成

一、引入：梯度更新规则

目前优化神经网络的方法都是基于反向传播的思想，即根据损失函数计算的误差通过梯度反向传播的方式，更新优化深度网络的权值。这样做是有一定原因的，首先，深层网络由许多非线性层堆叠而来，每一层非线性层都可以视为是一个非线性函数 f(x)，因此整个深度网络可以视为是一个复合的非线性多元函数：

我们最终的目的是希望这个多元函数可以很好的完成输入到输出之间的映射。

二、梯度消失、爆炸的原因

下图以三个隐层的单神经元网络为例：

假设每一层网络激活后的输出为

，其中 i 为第 i 层，x 代表第 i 层的输入，也就是第 i−1 层的输出，f 是激活函数，那么，可得出

，暂时忽略常数 b，简记为

。BP算法基于梯度下降策略如下：

由上图可知，上式主要由两部分构成：多个激活函数偏导数的连乘，和多个权重参数的连乘。如果激活函数求导后与权重相乘的积大于1，那么随着层数增多，求出的梯度更新信息将以指数形式增加，即发生梯度爆炸；如果此部分小于1，那么随着层数增多，求出的梯度更新信息将会以指数形式衰减，即发生梯度消失。

【注意】具体激活函数的导数情况可自行验证，比如sigmoid，tanh，Relu，leaky-Relu等。

三、解决方法

在讨论解决方法之前，我们探讨一下其解决思想，其实就是抑制上述式子连乘后结果远远大于1或小于1，主要取决于激活函数偏导数和权值大小。

3.1 预训练加微调

此方法来自Hinton在2006年发表的一篇论文，其基本思想是每次训练一层隐节点，训练时将上一层隐节点的输出作为输入，而本层隐节点的输出作为下一层隐节点的输入，此过程就是逐层“预训练”（pre-training），得到暂时的最优权重值；在预训练完成后，再利用BP算法对整个网络进行训练，对整个网络进行“微调”（fine-tunning）。此思想相当于是先寻找局部最优，然后整合起来寻找全局最优，此方法有一定的好处，但是目前应用不是很多。

3.2 梯度剪切、正则

梯度剪切主要是针对梯度爆炸提出的，其思想是设置一个梯度剪切阈值，更新梯度时，如果梯度超过这个阈值，那么就将其强制限制在这个范围之内，防止梯度爆炸。另一种解决梯度爆炸的手段是权重正则化（weithts regularization），常见的是

正则，和