Deep Residual Learning for Image Recognition
一、深度神经网络的 degradation 问题:
网络越深,训练误差和测试误差越大。这并不是由于梯度爆炸或者梯度消失,也不是由于过拟合导致。而是由于更深的网络学习和收敛更困难。
二、Residual Learning
不同于让网络直接学习期望的underlying mapping(标记为H(x)),而是让网络学习更简单的Residual mapping(标记为F(x))。原始期望的mapping则转化为:H(x) = F(x) + X,X表示Residual block 的输入,通过shortcut connection与F(x)按元素相加。
在极端情况下,如果underlying mapping是要学习identity mapping,相比于直接让多个级联非线性函数直接学习identity mapping,将resudual mapping置为0要更为简单。
三、网络结构