什么是梯度,梯度传递时的计算过程
梯度是损失函数在某点的导数,它表示损失函数在该点的变化率。负梯度方向是损失函数值下降最快的方向。
反向传播是一种计算神经网络中每个权重损失函数梯度的方法。通过计算损失函数关于每个权重的梯度,我们可以知道如何调整权重以使损失函数最小化。
什么是梯度消失/梯度爆炸
梯度消失:在反向传播过程中,梯度值逐渐变小,接近于0。随着层数越深,梯度值越小,当梯度接近于0时,权重更新的幅度非常小,训练过程变得非常缓慢。这将导致神经元全部为0,或者为某一定值。当梯度消失发生时,最后一个隐层梯度更新基本正常,但是越往前的隐层内更新越慢,甚至有可能会出现停滞,此时,多层深度神经网络可能会退化为浅层的神经网络(只有后面几层在学习),因为浅层基本没有学习,对输入仅仅做了一个映射而已。