https://zhuanlan.zhihu.com/p/31852747
https://blog.csdn.net/lanran2/article/details/79057994
深度残差网络(Deep Residual Network)的提出是CNN图像史上的一次里程碑事件,Resnet其实是解决了深度CNN模型难训练的问题(随着网络的加深,准确率下降的问题),其中架构中的Trick(残差学习)发挥了重要作用。参考一些博文进行总结分析。
深度网络的退化问题
经验上来看,网络的深度对模型的性能至关重要,增加网络层数后,网络能够进行更加复杂的特征模式的提取,所以当模型更深时理论上能够得到更好的性能,但是实验证明深度网络出现了退化问题:当网络深度加深时,网络的准确度出现饱和,甚至出现下降。56层的网络比20层的网络效果还要差。这不会是过拟合问题(过拟合问题在训练集上的准确率应该很高,56层网络的训练误差同样高),我们知道深层网路存在梯度消失、梯度爆炸的问题,使得深度学习模型很难训练,但是已经有一些手段如BatchNorm来缓解这个问题,所以出现深度网络的退化问题是很奇怪的。
残差学习为什么能避免梯度消失