Resnet:Deep Residual Learning for Image Recognition
问
在学习了VGGnet之后,我们知道了利用多个3*3的小卷积核代替大卷积核的方式来进行特征提取,不可避免地模型深度增加了,VGGnet也取得了很大成功,于是前人又开始尝试更深的网络。
随着尝试的深度增加,网络退化(degradation)问题也出现了:
简单的网络加深并没有提高模型的精度,反而下降了。
造成该现象的原因,这篇文章中,作者也没能给出合理解释,但否定了梯度消失论,作者通过获得BP过程中的梯度的方式,发现深层网络的梯度在反向传播的过程中并没有出现异常,并且一些正则化操作也保证梯度的非0。
question 1:网络退化的具体原因是什么?
解
为了解决这个问题Resnet引入了残差模块(Residual learing)。
y = F ( x , { W i } ) + x y= F(x,\{W_i\})+x y=F(x,