在卷积层的运用_VGG-大规模图像识别的深度卷积网络

7496c2a95bd96b9aa41647a82048686f.png
微信公众号:枫叶AI,专注计算机视觉,机器学习,人工智能等

974ea1359d048aa2424de4ef7ae43e2f.png

涉及的问题:

本篇工作是探索卷积网络深度在大规模图像识别中对其准确性的影响。

本文贡献:

1.主要贡献是使用非常小的3*3滤波器。

2.将深度调至16-19层可以实现重大改进。

3.其中探索使用了1×1卷积,1×1卷积本质上是在相同维数的空间上的线性投影(输入和输出通道的数量相同),整流函数引入了附加的非线性。

4.本文的发现是基于2014年ImageNet 挑战赛中,本文作者队伍取得了第一第二的成绩,从该竞赛中提取出优良结构。

训练图片预处理过程:

1.训练图片归一化,图像等轴重调(最短边为S)

等轴重调剪裁时的两种解决办法:

(1) 固定最小边的尺寸为256

(2) 随机从[256,512]的确定范围内进行抽样,这样原始图片尺寸不一,有利于训练,这个方法叫做尺度抖动,有利于训练集增强。 训练时运用大量的裁剪图片有利于提升识别精确率。

2.随机剪裁(每SGD一次)

3.随机水平翻转

4.RGB颜色偏移

模型结构:

ConvNets:224*224 RGB image

Stride=1

Padding=1

Filter=3*3

maxPooling=2*2 with stride=2

Fully-Connected:

第一和第二FC层有4096个通道

第三FC层有1000个通道,执行1000路ILSVRC分类(ImageNet Large Scale Visual Recognition Challenge (ILSVRC))

最后一层为softmax层

5de3cb7c1b2bc72c449d47c733365509.png
模型结构如图所示

注意到网络均不包括局部响应归一化LRN,在ILSVRC中归一化不能提高性能,而会导致增加内存消耗和计算时间。

b73aae70960361d4163688977ebe3b8e.png

Training

Batchsize=256

Momentum=0.9

L2正规化=5*10e-4

Learning_rate=0.1(在验证集准确率停止提高时降低10倍)

dropout(p=0.5)用于前两个完全连接层

网络权重的初始化很重要,错误的初始化会使学习停滞不前。从正态分布中采取了均值0和方差0.1,偏差以0初始化。从重新缩放的训练图像中随机裁剪,为了进一步增强训练集,对裁剪的图像进行了随机的水平翻转和随机的RGB颜色偏移。

Testing

通过水平翻转图像来增强测试集。 对原始图像和翻转图像的softmax类后验进行平均,以获得图像的最终分数。

实验结果:

我们观察到分类误差随着ConvNet深度的增加而减小,在上图中可以看到从A中的11层增加到E中的19层。在深度相同的情况下,C包含了3个1*1conv层,表现得比使用3*3conv的D要差。但C比B表现得更好,说明1*1conv带来了非线性表现得更好。

当深度达到19层时,体系结构的错误率就会饱和,但是更深的模型可能对更大的数据集有帮助。文中还证明了小过滤器要优于大过滤器。

测试图片的尺寸(Q)不一定要与训练图片的尺寸(S)相同(缩放后的尺寸为Q×Q大小的图像,Q与S基本无关)。由于下面的操作可以使全卷积网络被应用在整个图像上,所以不需要在测试时对采样多个裁剪图像(直接拿Q过来用),因为它需要网络重新计算每个裁剪图像,这样效率较低。

bfc8dc2f25a63f0e49f129381a81fdd8.png

下图展示了本文的方法较比于其他文章作者的方法有更低的错误率。

d7968702fdb32f809e0987a717a0b62e.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值