神经网络的运行分为:前向传播、反向传播、参数更新:
前向传播:给定参数后,直接进行计算,输出预测结果;
反向传播:基于上一步的预测结果,计算损失函数值,然后计算相关参数的梯度;
参数更新:使用上一步计算得到的梯度进行更新,重复上述过程,直到收敛。
反向传播
如果前向传播得到的损失值为,求参数的梯度:,核心思想就是第l层的误差与第l+1层误差有关。
深度学习——反向传播(Backpropagation)_南方惆怅客的博客-CSDN博客_反向传播
感谢大佬的详细解释。
虽然反向传播可以计算梯度,但是随着规模以及层数的增加,也带来了很多问题:
1.梯度消失
通过反向传播,我们知道第l层的误差是通过第l+1层的误差与两层之间的权重的加权,再乘以激活函数的导数得到的。如果导数<1,那么导数相乘,继续相乘,就会导致梯度变小,直至为0,梯度消失。参数无法得到很好的训练更新。
原因:激活函数的饱和性,例如,Sigmoid、Tanh都会,他们在函数值趋近于上下边界的时候,梯度都很小。办法就是换掉激活函数,比如用ReLu、LeakyReLu等等。
详见:激活函数的简单认识_科研苟Gamber的博客-CSDN博客
2.局部最优与鞍点
损失函数曲面:
损失函数有许多局部最优解,如果陷入局部最优,那么模型优化会非常困难。深度神经网络的局部最优也可以保证模型的效果。
鞍点:指的是梯度为0的点,但是它不是最大值或者最小值。由于此时梯度较小,模型的收敛速度下降,会给人一种陷入局部最优解的假象。