梯度消失与梯度爆炸

最新推荐文章于 2024-07-28 16:01:05 发布

但行好事，莫问前程

最新推荐文章于 2024-07-28 16:01:05 发布

阅读量110

点赞数

文章标签：神经网络深度学习人工智能

本文链接：https://blog.csdn.net/weixin_42324577/article/details/118494960

版权

本文探讨了在神经网络中梯度下降优化过程中可能出现的梯度消失和梯度爆炸现象。作者通过分析单层神经网络的求导过程，指出这些问题主要源于链式法则导致的梯度层层缩放，而激活函数和权重初始化对此有重要影响。权重初始化对于防止这些现象至关重要。

摘要由CSDN通过智能技术生成

作者：宝珠道人
链接：https://www.zhihu.com/question/290392414/answer/951298995
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

梯度下降作为一种最常见的迭代式优化策略，应用在神经网络的BP算法中，由于深度神经网络层级太深，在求导的过程中，由于链式法则，可能会出现梯度消失和梯度爆炸现象，为了搞清楚为什么会出现这些情况，我们可以先从最简单的单层神经网络的求导过程着手，查看求导的结果。
正向传播的公式如下：
损失函数使用均方差形式：
对x1,w1,x2,w2进行求导，为了更加清晰，我们遵循链式法则，一步一步进行求导：
经过上述求导，我们得到输入x和权重w的梯度如下：
从上述式子我们知道是sigmoid激活函数的求导，它的范围在（0，1）之间，和范围不确定，那么在多层神经网络中向上游传递的梯度可能在（0，1）之间，如果层层之间的梯度均在（0，1）之间，层层缩小，那么就会出现梯度消失。反之，如果层层传递的梯度大于1，那么经过层层扩大，就会出现梯度爆炸，可见梯度的消失与爆炸与激活函数没有特别大的关系，反而和权重有较大关系，因此权重的初始化对神经网络的训练很重要。
总之它的产生主要是由于链式法则的求导，梯度层层缩放导致的，因为神经网络的不只有激活函数的作用，还有权重与神经元的相互作用。