论文阅读004-ResNet-Deep Residual Learning for Image Recognition

Residual block
在这里插入图片描述
首先通过卷积神经网络by吴恩达所简要介绍的ResNet来说明该论文的重点。可以发现有两个重点:
1、提出了Residual block的结构
2、大大地提高了模型的可训练层数

Residual block结构

在这里插入图片描述
从吴恩达课程的PPT中能更清楚看到residual block的具体结构。这个结构有2个好处:
1、(相比普通网络结构)更容易优化
观察上图,如果是一个普通网络结构,输入x经过权重层1+relu1+权重层2+relu2,最后得到H(x),把权重层1+relu1+权重层2+relu2当作一个整体为H(x),它起着将x映射到H(x)的作用,我们的网络也就是要训练H(x)这个映射参数。
设F(x)=H(x)-x,F(x)代表H(x)这个映射对x的改变量。
那训练F(x)或H(x)哪一个更容易呢?答案是F(x)。因为假设H(x)是一个恒等变换(identity mapping),那F(x)不就是等于0,而H(x)=x,这样看肯定是F(x)容易训练。
参考文献 https://www.cnblogs.com/czy4869/p/9052895.html
2、这种结构支持很深的网络,并获得较高的准确度

如何实现residual block?

全连接层情况

输入与输出同等维度

先以权重层+relu+权重层+relu+… 的结构来看,(下列公式为简略,都省去了bias)
在这里插入图片描述
在这里插入图片描述
这部分看一下第一张PPT就明白了。

输入与输出不同维度

在这里插入图片描述
Ws代表一个从输入到输出的映射,有两种方法生成Ws.
1、通过zero padding增加维度(不增加参数)
2、通过1x1卷积核改变维度(增加参数)这个1x1卷积核运用还挺广泛的,来自于NIN,有必要进一步理解
在这里插入图片描述

训练配置

1、训练图片宽度随机调整到【256, 480】
2、224x224裁剪(中间或随机)
3、训练图片减去训练集像素均值
4、每个卷积层在激活前都使用BN(归一化)
5、参考在这里插入图片描述
进行卷积网络和残差网络的初始化
6、使用SGD,batch size=256
7、初始learning rate=10e-1, 错误率停止则乘10e-1
8、训练最多60x10e4次迭代
9、weight decay=0.0001, momentum=0.9
✘dropout

测试集
1、standard 10-crop testing
在这里插入图片描述

实验结果

在这里插入图片描述
在这里插入图片描述
观察以上两张图,可以从3方面来思考

1、plain network

图4左是plain network型的18-layer和34-layer,随着迭代次数增大,验证集的错误率的变化过程。可以发现,34-layer的错误率倒还高一些,这就是为什么会提出residual blocks的结构的原因。

2、residual network

图4右是residual network型的18-layer和34-layer,并且注意,相比它们的plain network型,参数量是没有增加的,但是34-layer的错误率比18-layer低了!看来residual block结构是有效的。

3、对比plain network、residual network

注意看图4左右的18-layer,residual network型的18-layer明显比plain network型拟合速度更快。这是为什么呢?这说明residual network可以在早期阶段加速优化拟合(当网络不是特别深时,比如这里的18-layer)。

shortcut的三种设计效果对比

在这里插入图片描述

A、identity shortcut

B、identity shortcut + projection shortcut

C、projection shortcut

发现A B C三种肯定都是比plain型好的,效果程度是A<B<C,这跟C类型引入较多新参数有关,但差距也不是很明显,所以为了节省点训练时间,实验中还是不怎么用C类型。

deeper bottleneck architectures

在这里插入图片描述
将结构从左图改到右图,1x1卷积核起着改变通道/维度的作用。注意右图的入口和出口的维度是256-d,维度比64-d高了不少,所以使用projection shortcut会大大增加计算量,不划算。有必要使用identity shortcut。

对比state-of-the-art

在这里插入图片描述

将residual network运用到CIFAR-10数据集

在这里插入图片描述
网络结构具体看论文。
在这里插入图片描述
在这里插入图片描述
residual network型有效克服了深度加深无法有效训练的问题。
在这里插入图片描述
对应3x3 layer输出的response随着层数增加不断减小,并且层数越大,response也减小。

目标识别数据集测试

在这里插入图片描述
效果显著提升。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值