退化现象——深层网络训练难度太高,层数越高,训练和测试的误差都增大;(和过拟合区分,过拟合是训练误差越小,测试误差越大)
梯度在反向传播过程中越来越趋近于0,误差就没有办法传播到底层的参数了,即梯度消失。
构造恒等映射的任务,转变为让网络去拟合残差。从输入额外连一条线到输出,这样将输入输出相加的操作叫做skip connection(跳跃连接)
残差网络中不会出现梯度消失的问题(下图不会一直等于-1的内容意思是梯度不会等于0。不论正向还是反向传播,都可以将信号传播到任意一层。
研究表明,没有skip connection时,网络越深,损失函数的非凸性越强。而非凸性越强就更难找到全局最优解。