网络加深,精度会提高,但过深会产生梯度消失问题,此时精度达到饱和,可能还会下降。为了让模型能尽可能深,同时避免梯度消失(motivation),因此作者提出一个深度残差学习框架(deep residual learning framework)(idea)。
深度残差学习
残差模块
输入:X
有参网络层,比如AlexNet/VGG等:H
输出:y = H(X)
输入、输出之间的残差:H(X)- X
残差块的输出:H(X) = F(X)+ X
残差映射:F(X) = F(X, {W})
误差和残差的区别:
误差:观测值和真实值之间的差距
残差:预测值和观测值之间的差距。
作者给出的解释是,网络的一层通常可以看做Y = H(X), 而残差网络的一个残差块可以表示为 H(X) = F(X )+ X ,也就是 F(X) = H(X&#x