【VGG2015】Very Deep Convolutional Networks for Large-Scale Image Recognition

不会声调的博er

已于 2022-10-17 21:44:18 修改

阅读量758

点赞数 2

文章标签：深度学习计算机视觉 cnn

于 2022-10-17 21:17:33 首次发布

本文链接：https://blog.csdn.net/wagnbo/article/details/127375240

版权

Very Deep Convolutional Networks for Large-Scale Image Recognition

用于大规模图像识别的非常深入的卷积网络

arXiv:1409.1556v6 [cs.CV] 10 Apr 2015
文章地址：https://arxiv.org/abs/1409.1556
代码地址：http://www.robots.ox.ac.uk/~vgg/research/very_deep/

摘要

在这项工作中，我们研究了卷积网络深度对其在大规模图像识别环境中的准确性的影响。我们的主要贡献是使用一个具有非常小的（3×3）卷积滤波器的架构对深度增加的网络进行了彻底的评估，这表明通过将深度推到16-19个权重层可以实现对先有技术配置的显著改善。这些发现是我们提交ImageNet挑战赛2014的基础，我们的团队分别获得了定位和分类赛道的第一和第二名。我们还表明，我们的表征在其他数据集上有很好的通用性，它们在那里取得了最先进的结果。我们公开了两个表现最好的ConvNet模型，以促进在计算机视觉中使用深度视觉表示的进一步研究。

1导言

卷积网络（ConvNets）最近在大规模图像和视频识别方面取得了巨大的成功（Krizhevsky等人，2012；Zeiler & Fergus，2013；Sermanet等人，2014；Simonyan & Zisserman，2014），这得益于大型公共图像库，如ImageNet（Deng等人，2009），以及高性能计算系统，如GPU或大规模分布式集群（Dean等人，2012）。特别是ImageNet大规模视觉识别挑战赛（ILSVRC）（Russakovsky等人，2014年）在推进深度视觉识别架构方面发挥了重要作用，它作为几代大规模图像分类系统的测试平台，从高维浅层特征编码（Perronnin等人，2010年）（ILSVRC-2011的冠军）到深度ConvNets（Krizhevsky等人，2012年）（ILSVRC-2012的冠军）。

随着ConvNets在计算机视觉领域逐渐成为一种商品，许多人尝试改进Krizhevsky等人（2012）的原始架构，以达到更好的准确性。例如，在ILSVRC2013上表现最好的论文（Zeiler & Fergus, 2013; Sermanet et al, 2014）利用了较小的接受窗尺寸和较小的第一卷积层步长。另一条改进路线是在整个图像和多个尺度上密集地训练和测试网络（Sermanet等人，2014；Howard，2014）。在本文中，我们讨论了ConvNet架构设计的另一个重要方面–其深度。为此，我们固定了架构的其他参数，并通过添加更多的卷积层来稳步增加网络的深度，由于在所有层中使用了非常小的（3×3）卷积滤波器，这一点是可行的。

因此，我们提出了更精确的ConvNet架构，它不仅在ILSVRC分类和定位任务上达到了最先进的精度，而且还适用于其他图像识别数据集，即使作为一个相对简单的管道的一部分（例如，由线性SVM分类的深度特征，不需要微调），它们也能取得优异的性能。我们已经发布了我们两个表现最好的模型¹，以促进进一步的研究。

本文的其余部分组织如下。在第2节，我们描述了我们的ConvNet配置。然后在第3节中介绍了图像分类训练和评估的细节。在第3节中，我们在ILSVRC分类任务中对这些配置进行了比较。4. 第5节是本文的结论。为了完整起见，我们还在附录A中描述和评估了我们的ILSVRC-2014物体定位系统，并在附录B中讨论了非常深入的特征对其他数据集的通用性。最后，附录C包含了论文的主要修订清单。

2.convnet配置

为了在公平的环境下衡量ConvNet深度增加所带来的改进，我们所有的ConvNet层配置都是采用相同的原则设计的，其灵感来自Ciresan等人（2011）；Krizhevsky等人（2012）。在本节中，我们首先描述了ConvNet配置的通用布局（第2.1节），然后详细介绍了评估中使用的具体配置（第2.2节）。然后在第2.3节中讨论了我们的设计选择并与现有技术进行了比较。

2.1架构

在训练期间，我们的ConvNets的输入是一个固定大小的224×224的RGB图像。我们所做的唯一的预处理是在每个像素上减去在训练集上计算的平均RGB值。图像被传递到卷积（conv.）层的堆栈中，我们使用具有非常小的接受域的过滤器：3×3（这是捕捉左/右、上/下、中心概念的最小尺寸）。在其中一个配置中，我们还利用了1×1的卷积滤波器，它可以被看作是输入通道的线性变换（其次是非线性）。卷积跨度固定为1像素；卷积层输入的空间填充是为了在卷积后保留空间分辨率，即3×3卷积层的填充为1像素。空间池化由五个最大池化层进行，它们跟随一些卷积层（不是所有的卷积层都跟随最大池化）。最大集合是在一个2×2像素的窗口上进行的，跨度为2。

卷积层的堆栈（在不同的结构中具有不同的深度）之后是三个全连接（FC）层：前两个层各有4096个通道，第三个层进行1000路ILSVRC分类，因此包含1000个通道（每类一个）。最后一层是 "软上限 "层。全连接层的配置在所有网络中都是一样的。

所有隐藏层都配备了整流（ReLU（Krizhevsky等人，2012））非线性。我们注意到，我们的网络（除了一个）都没有包含局部响应归一化（LRN）的归一化（Krizhevsky等人，2012）：正如在第4节中所显示的那样，这种归一化并没有改善我们的网络。如第4节所示，这种归一化并没有改善ILSVRC数据集的性能，而是导致了内存消耗和计算时间的增加。在适用的地方，LRN层的参数是（Krizhevsky等人，2012）的参数。

2.2 配置

表1：ConvNet的配置（以列显示）。配置的深度从左（A）到右（E）增加，因为增加了更多的层（增加的层用粗体表示）。卷积层的参数表示为 "convhreceptive field sizei-hnumber of channelsi"。为了简洁起见，ReLU激活函数没有显示。

本文中评估的ConvNet配置见表1，每列一个。在下文中，我们将以它们的名字（A-E）来指代这些网络。所有的配置都遵循第2.1节中的通用设计，只在深度上有所不同：从网络A的11个权重层（8个conv.和3个FC层）到网络E的19个权重层（16个conv. 和3个FC层）。确信层的宽度（通道的数量）相当小，从第一层的64开始，然后在每个最大集合层之后增加2倍，直到达到512。

表2：参数数量（单位：百万）。

Network	A,A-LRN	B	C	D	E
Number of parameters	133	133	134	138	144

在表2中，我们报告了每种配置的参数数量。尽管深度很大，但我们的网中的权重数并不大于具有更大的卷积层宽度和感受野的更浅的网中的权重数（Sermanet等人，2014）中的144M权重）。

2.3 讨论

我们的ConvNet配置与ILSVRC-2012（Krizhevsky等人，2012）和ILSVRC-2013比赛（Zeiler & Fergus，2013；Sermanet等人，2014）中表现最好的作品所使用的配置完全不同。我们没有在第一个卷积层中使用相对较大的感受野（例如11×11，跨度为4（Krizhevsky等人，2012），或7×7，跨度为2（Zeiler & Fergus，2013；Sermanet等人，2014）），而是在整个网络中使用非常小的3×3感受野，在每个像素上与输入进行卷积（跨度为1）。很容易看出，两个3×3的卷积层（中间没有空间池）的有效感受野是5×5；三个这样的层的有效感受野是7×7。那么，举例来说，我们使用三个3×3信念层的堆叠而不是单一的7×7层，有什么好处？首先，我们加入了三个非线性整流层，而不是单一的整流层，这使得决策函数更具有辨别力。其次，我们减少了参数的数量：假设一个三层3×3卷积层的输入和输出都有C个通道，那么该层的参数为3.32C2=27C2个权重；同时，一个单一的7×7卷积层需要72C2=49C2个参数，也就是说，多了81%。多了81%。这可以看作是对7×7卷积层滤波器施加了一个正则化，迫使它们通过3×3滤波器进行分解（中间注入了非线性）。

加入1×1卷积层（配置C，表1）是增加决策函数的非线性而不影响卷积层的感受野的一种方法。尽管在我们的例子中，1×1卷积基本上是对相同维度空间的线性投影（输入和输出通道的数量是相同的），但整流函数引入了一个额外的非线性因素。应该注意的是，1×1卷积层最近被用于Lin等人（2014）的 "网中网 "架构中。

Ciresan等人（2011）曾经使用过小尺寸的卷积滤波器，但是他们的网络深度明显低于我们的网络，而且他们没有对大规模的ILSVRC数据集进行评估。Goodfellow等人（2014年）将深度ConvNets（11个权重层）应用于街道号码识别任务，结果显示深度的增加带来了更好的性能。GoogLeNet（Szegedy等人，2014）是ILSVRC-2014分类任务中表现最好的作品，它是独立于我们的工作而开发的，但它的相似之处在于它是基于非常深的ConvNets（22个权重层）和小型卷积滤波器（除了3×3，他们还使用1×1和5×5卷积）。然而，他们的网络拓扑结构比我们的更复杂，特征图的空间分辨率在第一层被更积极地降低以减少计算量。正如在第4.5节中所显示的，我们的模型优于我们的模型。4.5节中显示，我们的模型在单次计算中的表现优于Szegedy等人（2014）的模型。(2014)的单网络分类精度。

3 分类框架

在上一节中，我们介绍了我们网络配置的细节。在这一节中，我们将描述分类ConvNet训练和评估的细节。

3.1 训练

ConvNet的训练过程一般遵循Krizhevsky等人（2012）的方法（除了从多尺度训练图像中对输入的农作物进行抽样，这在后面会解释）。也就是说，训练是通过使用小型批次梯度下降法（基于反向传播法（LeCun等人，1989））优化多叉逻辑回归目标来进行的，并带有动力。批量大小被设置为256，动量为0.9。训练通过权重衰减（ $L_2$ 惩罚乘数设置为 $5·10^{-4}$ ）和前两个全连接层的放弃正则化（放弃比率设置为0.5）进行规范化。学习率最初被设定为 $10^{-2}$ ，当验证集的准确性不再提高时，学习率又降低了10倍。总的来说，学习率下降了3次，学习在37万次迭代（74次）后停止。我们推测，尽管与（Krizhevsky等人，2012）相比，我们的网络有更多的参数和更大的深度，但网络需要更少的历时来收敛，这是因为（a）更大的深度和更小的 conv.滤波器的大小；（b）某些层的预初始化。

网络权重的初始化很重要，因为不好的初始化会因为深度网络中梯度的不稳定性而导致学习停滞。为了规避这个问题，我们从训练配置A（表1）开始，这个配置足够浅，可以用随机初始化进行训练。然后，在训练更深的架构时，我们用网A的层来初始化前四个卷积层和最后三个完全连接层（中间层是随机初始化的）。我们没有降低预初始化层的学习率，允许它们在学习过程中发生变化。对于随机初始化（如适用），我们从正态分布中抽出权重，其均值为零，方差为 $10^{-2}$ 。偏倚被初始化为零。值得注意的是，在论文提交后，我们发现可以通过使用Glorot & Bengio (2010)的随机初始化程序来初始化权重，而无需预训练。

为了获得固定尺寸的224×224 ConvNet输入图像，我们从重新缩放的训练图像中随机裁剪了这些图像（每次SGD迭代每张图像裁剪一次）。为了进一步增加训练集，裁剪的图像进行了随机的水平翻转和随机的RGB颜色移动（Krizhevsky等人，2012）。训练图像的重新缩放将在下面解释。

训练图像的大小。让S为等向缩放的训练图像的最小边，ConvNet的输入就是从该图像中裁剪出来的（我们也把S称为训练比例）。虽然裁剪尺寸固定为224×224，但原则上 $S$ 可以采取不低于224的任何数值：对于 $S = 224$ ，裁剪将捕获整个图像的统计数据，完全跨越训练图像的最小一面；对于 $S ≫ 224$ ，裁剪将对应于图像的一小部分，包含一个小物体或一个物体的一部分。

我们考虑了两种设置训练尺度 $S$ 的方法。第一种是固定 $S$ ，这相当于单尺度训练（注意，采样作物内的图像内容仍然可以代表多尺度图像统计）。在我们的实验中，我们评估了在两个固定尺度下训练的模型。 $S = 256$ （这在现有技术中已被广泛使用（Krizhevsky等人，2012；Zeiler & Fergus，2013；Sermanet等人，2014））和 $S = 384$ 。给定一个ConvNet配置，我们首先使用 $S = 256$ 来训练网络。为了加快 $S = 384$ 网络的训练，我们用 $S = 256$ 预训练的权重对其进行初始化，并使用较小的初始学习率 $10^{-3}$ 。

设置 $S$ 的第二种方法是多尺度训练，每个训练图像通过从一定的范围 $S_{min}, S_{max}]$ 中随机抽样 $S$ 来单独调整尺度（我们使用 $S_{min}= 256$ 和 $S_{max} = 512$ ）。由于图像中的物体可以有不同的尺寸，在训练中考虑到这一点是很有好处的。这也可以看作是通过尺度抖动来增加训练集，即训练一个单一的模型来识别各种尺度的物体。出于速度方面的考虑，我们通过对具有相同配置的单尺度模型的所有层进行微调来训练多尺度模型，预先训练固定的 $S = 384$ 。

3.2 测试

在测试时，给定一个训练有素的ConvNet和一个输入图像，它以下列方式进行分类。首先，它被各向同性地重新缩放到预先定义的最小图像边，表示为 $Q$ （我们也称它为测试尺度）。我们注意到， $Q$ 不一定等于训练尺度 $S$ （正如我们将在第4节中显示的那样，使用几个 $Q$ 值来计算训练尺度）。正如我们将在第4节中表明的那样，对每个 $S$ 使用几个 $Q$ 值会导致性能的提高）。然后，该网络以类似于（Sermanet等人，2014）的方式密集地应用于重新缩放的测试图像。也就是说，全连接层首先被转换为卷积层（第一个FC层为7×7卷积层，最后两个FC层为1×1卷积层）。然后将得到的全卷积网应用于整个（未裁剪的）图像。其结果是一个类分图，通道数等于类的数量，空间分辨率可变，取决于输入图像的大小。最后，为了得到一个固定大小的图像的类分数向量，对类分数图进行空间平均化（sum-pooled）。我们还通过水平翻转图像来增加测试集；原始图像和翻转图像的soft-max类后验被平均化以获得图像的最终分数。

由于全卷积网络应用于整个图像，因此不需要在测试时对多个作物进行采样（Krizhevsky等人，2012），因为这需要对每个作物重新进行网络计算，所以效率较低。同时，像Szegedy等人（2014）所做的那样，使用一组大的农作物，可以导致改进。(2014)所做的那样，可以提高精确度，因为与完全卷积网相比，它对输入图像的采样更细。另外，由于不同的卷积边界条件，多作物评估是对密集评估的补充：当将ConvNet应用于一个作物时，卷积的特征图被填充了零，而在密集评估的情况下，同一作物的填充物自然来自图像的相邻部分（由于卷积和空间池），这大大增加了整个网络的接受域，所以更多的背景被捕获。虽然我们认为在实践中，多个作物所增加的计算时间并不能证明准确度的潜在收益是合理的，但作为参考，我们也使用每个尺度50个作物（5×5规则网格，2次翻转）来评估我们的网络，在3个尺度上总共有150个作物，这与Szegedy等人（2014）使用的4个尺度上的144个作物相当。

3.3 实施细节

我们的实施源自公开可用的C++ Caffe工具箱（Jia, 2013）（2013年12月分出），但包含一些重要的修改，允许我们在安装在一个系统中的多个GPU上进行训练和评估，以及在多个比例的全尺寸（未剪裁）图像上进行训练和评估（如上所述）。多GPU训练利用了数据的并行性，并通过将每批训练图像分成几个GPU批次，在每个GPU上并行处理来进行。在计算完GPU批次的梯度后，它们被平均化以获得整个批次的梯度。梯度计算在各GPU之间是同步的，所以结果与在单个GPU上训练时完全相同。

虽然最近提出了更复杂的加速ConvNet训练的方法（Krizhevsky，2014），这些方法对网络的不同层采用了模型和数据并行，但我们发现，与使用单个GPU相比，我们概念上更简单的方案已经在一个现成的4GPU系统上提供了3.75倍的速度。在配备有四颗英伟达Titan Black GPU的系统上，训练一个网需要2-3周的时间，具体时间取决于架构。

4. 分类实验

数据集。在本节中，我们介绍了所述ConvNet架构在ILSVRC-2012数据集上取得的图像分类结果（该数据集用于ILSVRC 2012-2014挑战）。该数据集包括1000个类别的图像，并被分成三组：训练（130万张图像）、验证（5万张图像）和测试（10万张带有保留类别标签的图像）。分类性能用两种方法评估：前1名和前5名错误。前者是一个多类分类误差，即错误分类的图像比例；后者是ILSVRC使用的主要评价标准，计算的是图像的比例，即基础事实类别在前5个预测类别之外。

在大多数实验中，我们使用验证集作为测试集。某些实验也是在测试集上进行的，并作为 "VGG "团队的参赛作品提交给ILSVRC-2014比赛（Russakovsky等人，2014）的官方ILSVRC服务器。

4.1 单一规模评估

表3：ConvNet在单一测试规模下的性能。

我们首先评估了单个ConvNet模型在单一规模下的性能，以及第2.2节中描述的层配置。测试图像的大小被设定为如下。对于固定的 $S ， Q = S$ ，对于抖动的 $S∈[S_{min}, S_{max}]，Q=0.5(S_{min}+S_{max})$ 。其结果见表3。

首先，我们注意到，使用局部响应归一化（A-LRN网络）并没有改善没有任何归一化层的模型A。因此，我们在更深的结构（B-E）中没有采用归一化。

其次，我们观察到分类错误随着ConvNet深度的增加而减少：从A的11层到E的19层。值得注意的是，尽管深度相同，配置 $C$ （包含三个1×1的conv.层）的表现比配置D差，后者使用3×3的conv.层。在整个网络中使用3×3卷积层。这表明，虽然额外的非线性确实有帮助（ $C$ 比 $B$ 好），但通过使用具有非三层感受野的卷积滤波器来捕捉空间背景也很重要（ $D$ 比 $C$ 好）。当深度达到19层时，我们架构的错误率就饱和了，但更深的模型对更大的数据集可能是有益的。我们还将B网与具有5个5×5信念层的浅网进行了比较，该浅网是通过将每对3×3信念层替换为单一的5×5信念层（如第2.3节所述，它具有相同的感受野）而从 $B$ 网衍生出来的。经测量，浅网的top-1误差比 $B$ 的误差高7%（在中心作物上），这证实了具有小过滤器的深网优于具有大过滤器的浅网。

最后，训练时的比例抖动（ $S \in [256; 512]$ ）导致的结果明显好于在固定最小边的图像上的训练（ $S = 256$ 或 $S = 384$ ），即使在测试时使用单一比例。这证实了通过尺度抖动来增加训练集确实有助于捕捉多尺度图像统计。

4.2 多尺度评估

在对ConvNet模型进行单一尺度评估后，我们现在评估测试时尺度抖动的影响。它包括在测试图像的几个重新缩放的版本上运行一个模型（对应于不同的Q值），然后对产生的类别后验值进行平均化。考虑到训练和测试比例之间的巨大差异会导致性能下降，用固定的S训练的模型在三种测试图像尺寸上进行了评估，接近于训练尺寸。 $Q= \{s - 32, s, s + 32\}$ 。同时，训练时的尺度抖动允许网络在测试时应用于更大的尺度范围，所以用变量 $S∈[S_{min}; S_{max}]$ 训练的模型在更大的尺寸范围内被评估， $Q=\{S_{min}, 0.5(S_{min} + S_{max}), S_{max}\}$ 。

表4：ConvNet在多种测试规模下的性能。

表4中的结果表明，测试时的规模抖动会导致更好的性能（与表3中显示的在单一规模下评估同一模型相比）。和以前一样，最深的配置（ $D$ 和 $E$ ）表现最好，规模抖动比用固定的最小边 $S$ 训练更好。我们在验证集上最好的单网络性能是 $24.8\%/7.5\%$ 的 $t o p - 1/ t o p - 5$ 错误（在表4中用粗体字突出）。在测试集上，配置E取得了 $7.3\%$ 的前top-5错误。

4.3 多作物评估

表5：ConvNet评估技术比较。在所有的实验中，训练尺度S从[256; 512]中取样，并考虑三个测试尺度Q。{256, 384, 512}.

在表5中，我们比较了密集ConvNet评估和多作物评估（详见3.2节）。我们还通过对它们的softmax输出进行平均来评估这两种评估技术的互补性。可以看出，使用多作物的表现略好于密集评价，这两种方法确实是互补的，因为它们的组合优于它们各自的表现。如上所述，我们假设这是由于对卷积边界条件的不同处理所致。

4.4 CONVNET融合

到目前为止，我们评估了单个ConvNet模型的性能。在这一部分的实验中，我们通过对几个模型的软最大类后验值进行平均，将其输出结合起来。由于模型的互补性，这提高了性能，并在2012年（Krizhevsky等人，2012年）和2013年（Zeiler & Fergus，2013年；Sermanet等人，2014年）的ILSVRC顶级提交中使用。

表6：多个ConvNet的融合结果。

结果见表6。到ILSVRC提交时，我们只训练了单尺度网络，以及一个多尺度模型 $D$ （通过只对全连接层而不是所有层进行微调）。结果7个网络的合集有 $7.3\%$ 的ILSVRC测试误差。提交后，我们考虑了只有两个表现最好的多尺度模型（配置 $D$ 和 $E$ ）的合集，使用密集评估将测试误差降低到 $7.0\%$ ，使用密集和多作物组合评估将误差降低到 $6.8\%$ 。作为参考，我们表现最好的单个模型实现 $了7.1\%$ 的误差（模型E，表5）。

4.5 与现有技术的比较

表7：与ILSVRC分类技术现状的比较。我们的方法被表示为 "VGG"。只报告了没有外部训练数据的结果。

Method	top-1 val. error (%)	top-5 val. error (%)	top-5 test error (%)
VGG (2 nets, multi-crop & dense eval.)	23.7	6.8	6.8
VGG (1 net, multi-crop & dense eval.)	24.4	7.1	7.0
VGG (ILSVRC submission, 7 nets, dense eval.)	24.7	7.5	7.3
GoogLeNet (Szegedy et al., 2014) (1 net)	-	7.9	7.9
GoogLeNet (Szegedy et al., 2014) (7 nets)	-	6.7	6.7
MSRA (He et al., 2014) (11 nets)	-	-	8.1
MSRA (He et al., 2014) (1 net)	27.9	9.1	9.1
Clarifai (Russakovsky et al., 2014) (multiple nets)	-	-	11.7
Clarifai (Russakovsky et al., 2014) (1 net)	-	-	12.5
Zeiler & Fergus (Zeiler & Fergus, 2013) (6 nets)	36.0	14.7	14.8
Zeiler & Fergus (Zeiler & Fergus, 2013) (1 net)	37.5	16.0	16.1
OverFeat (Sermanet et al., 2014) (7 nets)	34.0	13.2	13.6
OverFeat (Sermanet et al., 2014) (1 net)	35.7	14.2	-
Krizhevsky et al. (Krizhevsky et al., 2012) (5 nets)	38.1	16.4	16.4
Krizhevsky et al. (Krizhevsky et al., 2012) (1 net)	40.7	18.2	-

最后，我们将我们的结果与表7中的现有技术进行比较。在ILSVRC-2014挑战赛的分类任务中（Russakovsky等人，2014），我们的 "VGG "团队使用7个模型的集合，以7.3%的测试误差获得了第二名。在提交后，我们使用2个模型的组合将错误率降低到6.8%。

从表7可以看出，我们的极深ConvNets明显优于前一代模型，后者在ILSVRC-2012和ILSVRC-2013比赛中取得了最佳成绩。我们的结果与分类任务冠军（GoogLeNet，误差6.7%）相比也很有竞争力，并大大超过了ILSVRC-2013的获奖作品Clarifai，后者在有外部训练数据的情况下取得了11.2%的成绩，在没有外部训练数据的情况下取得了11.7%。考虑到我们的最佳结果是通过结合两个模型实现的–明显少于大多数ILSVRC提交的结果，这一点非常了不起。在单网性能方面，我们的架构取得了最好的结果（7.0%的测试误差），比单个GoogLeNet的性能高出0.9%。值得注意的是，我们并没有偏离LeCun等人（1989）的经典ConvNet架构，而是通过大幅增加深度来改进它。

5. 结论

在这项工作中，我们评估了非常深的卷积网络（多达19个权重层）用于大规模的图像分类。结果表明，表示深度有利于分类精度，在ImageNet挑战数据集上的最先进的性能可以通过使用传统的ConvNet架构（LeCun等人，1989年；Krizhevsky等人，2012年）来实现，而深度大大增加。在附录中，我们还表明，我们的模型可以很好地适用于各种任务和数据集，与围绕不那么深的图像表征建立的更复杂的识别管道相匹配或超越。我们的结果再次证实了深度在视觉表示中的重要性。

鸣谢

这项工作得到了ERC资助VisRec no. 228180. 我们感谢英伟达公司的支持，捐赠了用于本研究的GPU。

REFERENCES

Bell, S., Upchurch, P ., Snavely, N., and Bala, K. Material recognition in the wild with the materials in context database. CoRR, abs/1412.0623, 2014.

Chatfield, K., Simonyan, K., Vedaldi, A., and Zisserman, A. Return of the devil in the details: Delving deep into convolutional nets. In Proc. BMVC., 2014.

Cimpoi, M., Maji, S., and V edaldi, A. Deep convolutional filter banks for texture recognition and segmentation.CoRR, abs/1411.6836, 2014.

Ciresan, D. C., Meier, U., Masci, J., Gambardella, L. M., and Schmidhuber, J. Flexible, high performance convolutional neural networks for image classification. In IJCAI, pp. 1237–1242, 2011.

Dean, J., Corrado, G., Monga, R., Chen, K., Devin, M., Mao, M., Ranzato, M., Senior, A., Tucker, P ., Yang,K., Le, Q. V ., and Ng, A. Y . Large scale distributed deep networks. In NIPS, pp. 1232–1240, 2012.

Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., and Fei-Fei, L. Imagenet: A large-scale hierarchical image database. In Proc. CVPR, 2009.

Donahue, J., Jia, Y ., Vinyals, O., Hoffman, J., Zhang, N., Tzeng, E., and Darrell, T. Decaf: A deep convolutional activation feature for generic visual recognition. CoRR, abs/1310.1531, 2013.

Everingham, M., Eslami, S. M. A., V an Gool, L., Williams, C., Winn, J., and Zisserman, A. The Pascal visual object classes challenge: A retrospective. IJCV, 111(1):98–136, 2015.

Fei-Fei, L., Fergus, R., and Perona, P . Learning generative visual models from few training examples: An incremental bayesian approach tested on 101 object categories. In IEEE CVPR Workshop of Generative Model Based Vision, 2004.

Girshick, R. B., Donahue, J., Darrell, T., and Malik, J. Rich feature hierarchies for accurate object detection and semantic segmentation. CoRR, abs/1311.2524v5, 2014. Published in Proc. CVPR, 2014.

Gkioxari, G., Girshick, R., and Malik, J. Actions and attributes from wholes and parts. CoRR, abs/1412.2604,2014.

Glorot, X. and Bengio, Y . Understanding the difficulty of training deep feedforward neural networks. In Proc.AISTATS, volume 9, pp. 249–256, 2010.

Goodfellow, I. J., Bulatov, Y ., Ibarz, J., Arnoud, S., and Shet, V . Multi-digit number recognition from street view imagery using deep convolutional neural networks. In Proc. ICLR, 2014.

Griffin, G., Holub, A., and Perona, P. Caltech-256 object category dataset. Technical Report 7694, California Institute of Technology, 2007.

He, K., Zhang, X., Ren, S., and Sun, J. Spatial pyramid pooling in deep convolutional networks for visual recognition. CoRR, abs/1406.4729v2, 2014.

Hoai, M. Regularized max pooling for image categorization. In Proc. BMVC., 2014.

Howard, A. G. Some improvements on deep convolutional neural network based image classification. In Proc.ICLR, 2014.

Jia, Y . Caffe: An open source convolutional architecture for fast feature embedding.http://caffe.berkeleyvision.org/, 2013.

Karpathy, A. and Fei-Fei, L. Deep visual-semantic alignments for generating image descriptions. CoRR,abs/1412.2306, 2014.

Kiros, R., Salakhutdinov, R., and Zemel, R. S. Unifying visual-semantic embeddings with multimodal neural language models. CoRR, abs/1411.2539, 2014.

Krizhevsky, A. One weird trick for parallelizing convolutional neural networks. CoRR, abs/1404.5997, 2014.

Krizhevsky, A., Sutskever, I., and Hinton, G. E. ImageNet classification with deep convolutional neural networks. In NIPS, pp. 1106–1114, 2012.

LeCun, Y ., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W., and Jackel, L. D. Backpropagation applied to handwritten zip code recognition. Neural Computation, 1(4):541–551, 1989.

Lin, M., Chen, Q., and Yan, S. Network in network. In Proc. ICLR, 2014.

Long, J., Shelhamer, E., and Darrell, T. Fully convolutional networks for semantic segmentation. CoRR,abs/1411.4038, 2014.

Oquab, M., Bottou, L., Laptev, I., and Sivic, J. Learning and Transferring Mid-Level Image Representations using Convolutional Neural Networks. In Proc. CVPR, 2014.

Perronnin, F., S´ anchez, J., and Mensink, T. Improving the Fisher kernel for large-scale image classification. In Proc. ECCV, 2010.

Razavian, A., Azizpour, H., Sullivan, J., and Carlsson, S. CNN Features off-the-shelf: an Astounding Baseline for Recognition. CoRR, abs/1403.6382, 2014.Published as a conference paper at ICLR 2015

Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A.,

Bernstein, M., Berg, A. C., and Fei-Fei, L. ImageNet large scale visual recognition challenge. CoRR,abs/1409.0575, 2014.

Sermanet, P ., Eigen, D., Zhang, X., Mathieu, M., Fergus, R., and LeCun, Y . OverFeat: Integrated Recognition,Localization and Detection using Convolutional Networks. In Proc. ICLR, 2014.

Simonyan, K. and Zisserman, A. Two-stream convolutional networks for action recognition in videos. CoRR,abs/1406.2199, 2014. Published in Proc. NIPS, 2014.

Szegedy, C., Liu, W., Jia, Y ., Sermanet, P ., Reed, S., Anguelov, D., Erhan, D., V anhoucke, V ., and Rabinovich,A. Going deeper with convolutions. CoRR, abs/1409.4842, 2014.

Wei, Y ., Xia, W., Huang, J., Ni, B., Dong, J., Zhao, Y ., and Yan, S. CNN: Single-label to multi-label. CoRR,abs/1406.5726, 2014.

Zeiler, M. D. and Fergus, R. Visualizing and understanding convolutional networks. CoRR, abs/1311.2901,2013. Published in Proc. ECCV , 2014.