梯度消失
指的是即当梯度(小于1.0)在被反向传播到前面的层时,重复的相乘可能会使梯度变得无限小。
梯度爆炸
指的是即当梯度(大于1.0)在被反向传播到前面的层时,重复的相乘可能会使梯度变得非常大甚至无限大导致溢出。
为什么会出现以上梯度问题
网络层数增加,长时间训练但是网络收敛变得非常困难甚至不收敛(这个问题很大程度已被标准初始化和中间标准化层解决)。网络性能会趋于饱和,甚至下降,非过拟合,而是网络退化。
残差学习为什么可以解决梯度消失
残差学习需要学习的内容少,学习相对更容易,依据链式求导反向传播误差,不会出现梯度消失