适用性:
残差网络很容易优化,并可以通过增加深度来提高准确性。但随着网络深度的增加,精度会达到饱和,然后快速下降。这种不是过拟合,为适合的深度模型添加更多的层会导致更高的训练错误。残差特性不仅可以用在全连接中,也可以用在卷积网络中。
文章中提出解决梯度消失的方法:标准初始化、中间标准化层(batch normalization)。
Shortcut connection:快捷连接(是那些跳过一层或更多层的连接,并将其输出添加到堆叠层的输出。)
152层的残差网络是目前最深的网络,并且它的复杂性还是低于VGG网络。
具体过程:
我们每隔几个堆叠层采用残差学习。一个构建块building block如下图所示,层的个数可以随意。
当输入X的维数与输出F的维数相同时,Figure 2的表达式如1所示,在这种情况下既没有增加额外的参数,也没有增加计算量。