用于大规模图像识别的极深层卷积网络


摘要

在这项工作中,我们研究了卷积网络深度对其在大规模图像识别环境中的准确性的影响。我们的主要贡献是使用一个具有非常小的(3×3)卷积滤波器的架构对深度增加的网络进行了彻底的评估,这表明通过将深度推到16-19个权重层可以实现对先有技术配置的显著改善。这些发现是我们提交ImageNet挑战赛2014的基础,我们的团队分别在定位和分类赛道上获得了第一和第二名。我们还表明,我们的表征在其他数据集上有很好的通用性,它们在那里取得了最先进的结果。我们公开了两个表现最好的ConvNet模型,以促进在计算机视觉中使用深度视觉表示的进一步研究。


一、介绍

大型公共图像库、高性能计算系统、我们提出了更精确的ConvNet架构,它不仅在ILSVRC分类和定位任务上达到了最先进的精度,而且还适用于其他图像识别数据集,即使作为一个相对简单的管道的一部分(例如,由线性SVM分类的深度特征,不需要微调),它们也能取得优异的性能。我们已经发布了我们两个表现最好的模型,以促进进一步的研究。

二、convnet配置

1.结构

在训练期间,我们的ConvNets的输入是一个固定大小的224×224的RGB图像。我们所做的唯一预处理是减去每个像素的RGB平均值,该值是在训练集上计算出来的。

图像被传递到卷积(conv.)层的堆栈中,我们使用具有非常小的接受域的过滤器:3×3(这是捕捉左/右、上/下、中心概念的最小尺寸)。在其中一个配置中,我们还利用了1×1的卷积滤波器,它可以被看作是输入通道的线性变换(其次是非线性)。卷积跨度固定为1像素;卷积层输入的空间填充是为了在卷积后保留空间分辨率,即3×3卷积层的填充为1像素。空间池化由五个最大池化层进行,它们跟随一些卷积层(不是所有的卷积层都跟随最大池化)。最大集合是在一个2×2像素的窗口上进行的,跨度为2。

卷积层的堆栈(在不同的结构中具有不同的深度)之后是三个全连接(FC)层:前两个层各有4096个通道,第三个层进行1000路ILSVRC分类,因此包含1000个通道(每类一个)。最后一层是 "软上限 "层。所有网络中全连接层的配置都是一样的。

所有隐藏层都配备了整流(ReLU(Krizhevsky等人,2012))非线性。

2.立体基阵

在这里插入图片描述

三、分类框架

1.训练

ConvNet的训练程序一般遵循Krizhevsky等人(2012)的方法(除了从多尺度训练图像中对输入的作物进行抽样,后面会有解释)。也就是说,训练是通过使用小型批次梯度下降法(基于反向传播法(LeCun等人,1989))优化多叉逻辑回归目标来进行的,并带有动力。批量大小被设置为256,动量为0.9。训练通过权重衰减(L2惩罚乘数设置为5-10-4)和前两个全连接层的放弃正则化(放弃比率设置为0.5)进行规范化。

学习率最初被设定为10-2,当验证集的准确性不再提高时,学习率又降低了10倍。总的来说,学习率降低了3次,学习在37万次迭代(74次)后停止。我们推测,尽管与(Krizhevsky等人,2012)相比,我们的网络有更多的参数和更大的深度,但网络需要更少的历时来收敛,这是因为(a)更大的深度和更小的 conv.

滤波器的大小;(b)某些层的预初始化。

网络权重的初始化很重要,因为不好的初始化会因为深度网络中梯度的不稳定性而导致学习停滞。为了规避这个问题,我们从训练配置A(表1)开始,这个配置足够浅,可以用随机初始化进行训练。然后,在训练更深的架构时,我们用网A的层来初始化前四个卷积层和最后三个完全连接层(中间层是随机初始化的)。我们没有降低预初始化层的学习率,允许它们在学习过程中发生变化。

对于随机初始化(如适用),我们从正态分布中抽出权重,其平均值为零,方差为10-2。偏倚被初始化为零。值得注意的是,在论文提交后,我们发现可以通过使用Glorot & Bengio (2010)的随机初始化程序来初始化权重而不需要预训练。

为了获得固定尺寸的224×224 ConvNet输入图像,我们从重新缩放的训练图像中随机裁剪了这些图像(每次SGD迭代每张图像裁剪一次)。为了进一步增加训练集,裁剪的图像进行了随机的水平翻转和随机的RGB颜色移动(Krizhevsky等人,2012)。

2.测试

在测试时,给定一个经过训练的ConvNet和一个输入图像,它将以下列方式进行分类。首先,它被各向同性地重新缩放到预先定义的最小的图像边,表示为Q(我们也把它称为测试尺度)。我们注意到,Q不一定等于训练尺度S(正如我们将在第4节中显示的那样,使用几个Q值来计算训练尺度)。正如我们将在第4节中表明的那样,对每个S使用几个Q值会导致性能的提高)。然后,该网络以类似于(Sermanet等人,2014)的方式密集地应用于重新缩放的测试图像。也就是说,全连接层首先被转换为卷积层(第一个FC层为7×7卷积层,最后两个FC层为1×1卷积层)。然后将得到的全卷积网应用于整个(未裁剪的)图像。其结果是一个类分图,通道数等于类的数量,空间分辨率可变,取决于输入图像的大小。最后,为了得到一个固定大小的图像的类分数向量,对类分数图进行空间平均化(sum-pooled)。我们还通过水平翻转图像来增加测试集;原始图像和翻转图像的soft-max类后验被平均化以获得图像的最终分数。

由于全卷积网络应用于整个图像,因此不需要在测试时对多个作物进行采样(Krizhevsky等人,2012),因为这需要对每个作物重新进行网络计算,所以效率较低。同时,像Szegedy等人(2014)所做的那样,使用一组大的农作物,可以导致改进。

(2014)所做的那样,可以提高精确度,因为与完全卷积网相比,它对输入图像的采样更细。另外,由于不同的卷积边界条件,多作物评估是对密集评估的补充:当将ConvNet应用于一个作物时,卷积的特征图被填充了零,而在密集评估的情况下,同一作物的填充物自然来自图像的相邻部分(由于卷积和空间池),这大大增加了整个网络的接受域,因此可以捕获更多的背景。虽然我们认为在实践中,多个作物所增加的计算时间并不能证明在准确性方面的潜在收益是合理的,但作为参考,我们也使用每个尺度50个作物(5×5的规则网格,2次翻转)来评估我们的网络,在3个尺度上总共有150个作物,这与Szegedy等人(2014)使用的4个尺度上的144个作物相当。


总结

在这项工作中,我们评估了非常深的卷积网络(多达19个权值层),用于大规模的图像分类。结果表明,表示深度有利于分类精度,使用传统的ConvNet体系结构可以实现ImageNet挑战数据集上最先进的性能(LeCun等人,1989;Krizhevsky et al, 2012),深度大幅增加。在附录中,我们还展示了我们的模型可以很好地推广到广泛的任务和数据集,匹配或优于围绕较低深度图像表示构建的更复杂的识别管道。我们的研究结果再次证实了深度在视觉表现中的重要性。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值