论文标题:Deep Residual Learning for Image Recognition
论文链接:https://arxiv.org/abs/1512.03385
训练好、测试差 → overfitting
训练差、测试差 → 非overfitting、网络收敛不好
plain网络在层数增加时产生退化问题的原因:
梯度消失? × (BN保证前向传播信号有非0方差,以及反向传播梯度显示出健康的范数)
收敛速度低? √ (不容易找到最优方案)
ResNet网络是"深且瘦"的结构。
文中实验没有使用drop out等正则化。如果与drop out等正则化结合,可能提高结果。