1、发现问题:当更深层次的网络能够开始收敛时,梯度问题就暴露出来了:随着网络深度的增加,精度会饱和(这可能并不奇怪),然后下降很快。
2、分析问题:
1)正确率下降表明并非所有的系统都是很容易优化的。退化问题表明很难用多个非线性层来逼近一个映射。
2)在文献中,验证了在前向传播中没有出现0方差、在反向传播的梯度与BN表现出正常的规范,这两方面说明了退化问题不是梯度消失所导致的。在18层与34层的比较中,其实34层网络仍能达到竞争性的精度,这就说明深层网络在一定程度上是可行的。推测导致退化问题可能是有指数级的低收敛速度引起的。
3)但是我们比较浅层结构和深层结构,深层结构是通过构造来解决问题的方法,它是浅层结构的映射、是一种复制。这种结构表现出深层的表现不比浅层的差。但是几乎所有的模型都没有达到这个效果。
3、可能的原因:不是添加的每层网络都对网络的正确率有提升的作用。
通过残差学习的表述,如果单位映射的效果是最好的,则将其他的非线性层的权重设为0,从而逼近单位向量。
4、引出残差网络:不是让每层都对最后的结果起作用,只有那些对正确率提高的层,网络才会采纳。
所提出的残差网络涉及到的核心问题
1)当输入和输出具有相同的尺寸时,可以直接使用identityshortcuts。
2)当维度增加时
我们考虑两个选项:
(A)为增加维度填充额外的0。此选项不引入额外参数;
(B)使用1X1X(维度)的卷积完成。
6、结果:我们在ImageNet[36]上进行了综合实验,以说明退化问题并评估我们的方法。结果表明:
1)我们的极深残差网很容易优化,但是对应的“普通”网(简单地堆叠层)在深度增加时表现出更高的训练误差;
2)我们的深残差网可以很容易地从深度的大幅增加中获得精度增益,产生的结果大大优于以前的网络。
7、参考文献:
He K , Zhang X , Ren S , et al. Deep Residual Learning for Image Recognition[C]// IEEE Conference on Computer Vision & Pattern Recognition. IEEE Computer Society, 2016.