一、定义
- 梯度消失:神经网络在进行反向传播(BP)的时候会对参数W进行更新,梯度消失就是靠后面网络层能够正常的得到一个合理的偏导数,但是靠近输入层的网络层,计算的到的偏导数近乎零,W几乎无法得到更新。
- 梯度爆炸:是靠近输入层的网络层,计算得到的偏导数极大。
- 公式:w1 = w0 - lr * △w
△w过大和过小就是梯度爆炸、消失
二、发生原因
周所周知,梯度计算时我们使用的是反向传播(BP),即输出层到输入层。如下图所示,每一层的权重矩阵更新量就是每一个括号里的偏导。而想计算输入层的偏导数,就需要前面所有层的偏导数的乘积。当层数较大时,越靠近输出层的权重矩阵的更新就越大或越小,这就是所谓的梯度爆炸/消失。

三、对二中图片的解释:为什么可以写成那样
y1 = w1 * x + b1
y2 = w2 * y + b2
…
yn = wn * yn-1 +bn
上述为神经网络每一层的线性公式,△w为每一层的偏导的累积,且自动求导时使用反向传播(BP)。
本文探讨了神经网络在反向传播过程中遇到的梯度消失和爆炸问题,分析了其发生的原因,涉及权重矩阵更新、偏导数累积以及深度网络结构的影响。
2466

被折叠的 条评论
为什么被折叠?



