论文翻译：ImageNet Classification with Deep Convolutional nerual network

最新推荐文章于 2023-10-05 17:34:33 发布

小胖蹄儿

最新推荐文章于 2023-10-05 17:34:33 发布

阅读量2.8k

点赞数 1

分类专栏： Papers 文章标签：神经网络 alex

Papers 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

这篇文章是我大四毕设的翻译外文文献，第一次翻译，而且以前也没有接触过深度学习方面的内容，很多词语表述还存在问题，有待修改。

基于深度卷积神经网络的图片网络分类

Alex Krizhevsky University of Toronto kriz@cs.utoronto.ca
Ilya Sutskever University of Toronto ilya@cs.utoronto.ca
Geoffrey E. Hinton University of Toronto hinton@cs.utoronto.ca

摘要

在 ImageNet LSVRC-2010 竞赛中，我们训练了一个庞大的深度卷积神经网络来将 1.2 亿高分辨率图片分成 1000 种类别。对于测试数据的 top-1 和 top-5 错误率要比之前最高纪录好很多，分别达到了 37.5%和 17.0%。有 60 亿个参数和 650000 个神经元的神经网络包含 5 个卷积层，其中的一部分为 max-pooling 层和 3 层带有最后的 1000 种软性最大值全连接层。我们利用非饱和神经元和一个非常有效的 GPU 来提高卷积操作的训练速度。我们采用了一种最新开发的正则化方法——DROPOUT 来减少在全连接层的出现过拟合情况，这种方法在实际运行中十分有效。在 ILSVER-2012 比赛中，我们将这一模型进行改进并且使得 top-5 错误率降为 15.3%，，而第二名的错误率为 26.2%，由此我们获得了冠军。

1、介绍

当前的目标识别必然要用到机器学习。可以通过采集更大的数据集、学习更有力的模型和利用更好的技术阻止过拟合现象来提高效果。目前为止，标记图片的数据集相对较小，仅有数万量级图片被标记（例如NORB [16], Caltech-101/256 [8, 9], 和CIFAR-10/100 [12]）。这一大小的数据集对于解决简单的识别任务是足够的，尤其是当它们通过标签保留转化来被增强时。例如，在MNIST 数字识别任务中，当前最低的错误率（<0.3%）几乎可以和人类的表现相媲美，但目标在实际情况下有相当大的区别，识别的结果也差强人意，由此扩大训练集是十分必要的。实际上，少量图像数据集的缺点已经被广泛认同（比如Pinto et al. [21]），但只是最近才认为有必要采集数以万计的被标记的图片数据集。最近更大的数据集包括LabelMe[23]和ImageNet[6]分别由成千上万的完全分割图像和超过22000种类的15万张以上的图片构成。
我们需要一个具有强大学习能力的模型使得从数万张图片中得到数以千计的目标。然而，庞大而复杂的目标识别任务也意味着即使数据集像ImageNet那么大，这一问题也不能被明确，因此模型需要大量的预先知识来弥补之前没有的数据。卷积神经网络（CNNs）便构成了一个这样的类模型[16, 11, 13, 18, 15,22, 26]。可以通过调整宽度和深度来控制他们的能力，他们同样可以做出关于自然图片强壮并几乎正确的假设（也就是统计平稳性和本地像素依赖）。因此，和标准的具有相似大小层的前馈神经网络相比，CNNs有着更少的连接和参数，所以更容易去训练，只是理论上的最佳表现会略差一些。
尽管CCNs具有非常好的训练质量并且本地架构相对效率较高，但是它仍具有高昂的价格来支持一个大规模的高分辨率图片集。幸运的是，当前的GPU搭配高度优化的二维卷积可以很好促进非常大的CNNs训练，并且像最近ImageNet 这种数据集包含了足够多的标记样本来训练这种模型，并且没有严重的过拟合现象。
本篇论文主要贡献如下：我们训练了在ILSVRC-2010和ILSVRC-2012两次比赛中用到的ImageNet的最大的卷积神经网络子集，并且取得了比之前所有在此数据集上训练取得的更好的结果。我们写了二维卷积和其他所有在训练卷积神经网络的固有操作的经优化的GPU实现，这部分代码已经公开(http://code.google.com/p/cuda-convnet/)。在第三节中，我们将详细描述网络所包含的提高训练表现减少训练时间的最新的独特的特征。即使带有120万的标记训练样本，但由于网络规模庞大会导致过拟合问题，因此第四节中将阐述我们利用了多种行之有效的技术来阻止过拟合现象。我们最终的网络包括五层卷积层和三层全连接层，这一深度十分重要，因为我们发现无论去掉哪一个卷积层（每一层都包含不超过模型中1%的参数），都会降低测试表现。
最后，我们网络的规模主要局限于GPU的存储能力和训练时间，我们也希望以后在这两个问题上有所突破。本网络利用五至六天的时间来训练两个GTX 580 3GB的GPU。所有的实验结果都证明可以通过利用更快的GPU和更大的数据集来提高效率。

2、数据集

ImageNet是一个有着超过 $1.5 × 10^7$ 个数据、2200个类别的被标记的高分辨率图像的数据集。这些图像均采自网络，并由标记员利用亚马逊的Mechanical Turk的crow-sourcing工具进行手工标记。ImageNet 大规模视觉识别挑战（ILSVRC）始于2010年，并作为帕斯卡视觉目标挑战（Pascal Visual Object Challenge）的一部分每年举办一次。基于ImageNet的一个子集的ILSVRC从1000 个类别中的分别选出大于1000张图片。共有大约120万张训练图像，50,000张有效图像和150,000张测试图像。
在ILSVRC比赛中仅有2010年的测试集带有标签，因此我们的模型在这次比赛中表现最佳。我们也带着同样模型参加了2012年度的比赛，但在这次比赛中测试集中并没有标签，我们将在第六节展示在此次比赛中的结果。在ImageNet 中常用top-1和top-5来表示结果的好坏。top-5错误率是测试图像的一小部分，在这一小部分图像中，正确的标签不是模型中最常见的5个标签。
ImageNet包含可变分辨率的图像，然而我们的系统需要一个连续的输入维度。因此我们将图像下采样来修正分辨率达到256 × 256。我们首先重新调整了图片使得短边长度为256，紧接着从中心裁剪出256 × 256大小的块。除了从训练集中的每个像素点去掉主要活动以外，没有通过其他任何方式对图片进去预处理。因此，我们是在（中心）像素的原RGB值的基础上来训练网络的。

3、架构

图二中总结了网络的架构。它包含5个卷积层和3个全连接层。稍后在1到4 小节将介绍网络架构的新颖和独特之处，并将按照重要性由高到低的次序进行展开论述。

3.1 矫正线性单元的非线性化

标准的建立一个神经输入x和输出f的的公式是 $f(x) = tanh(x)$ 或 $f(x) =(1 + e^\mathtt{-x})−1$ 。就带有梯度下降的训练时间而言饱和非线性化要比不饱和非线性化 $f(x)=max(0,x)$ 慢很多。我们将基于Nair和Hinton非线性神经称作矫正线性单元（ReLUs）。基于ReLUs的深度卷积神经网络训练结果要比基于tanh单元的的网络快很多倍。图一中显示了针对CIFAR-10数据集中的4层卷积层，当训练误差为25%时二者的迭代次数。该曲线图说明，我们将不会利用传统的饱和神经模型来在在如此大的神经网络中做实验。
我们不会首先考虑在CNNs中更换传统的神经模型。例如，Jarrett et al. [11]表示在Caltech-101数据集上，基于带有本地平均池的对比正常化类型的非线性方法 $f(x)=|tanh(x)|$ 表现的尤为突出。然而，这一数据及主要关心的是阻止过拟合现象，因此他们的关注点与我们所说的利用ReLUs来提高适应训练集能力是不同的。更快的学习有利于提高大模型在大数据集上的训练表现。

图1.针对CIFAR-10数据集中的4层卷积层，当训练误差率为25%时，ReLUs(实线)比在同等网络中利用tanh神经算法（虚线）快6倍。每个网络的学习率是独立选择的，目的是使得训练速度尽可能快，且没有明确的使用规则。有效性与网络架构有关，但在同一网络下，ReLUs比饱和神经快几倍。

3.2 在多GPU上训练

一个GTX 580 GPU内存只有3GB，很大程度上限制了可训练的最大网络数量。事实证明，一个120万的训练样本足够训练一个在一个GPU上运行的大网络。因此我们利用两个GPU来加速网络。由于当前的GPU可以从另一个内存中读取并写回，因此非常适合跨GPU平行化。我们所采取的平行化模式需要将一半的核（或神经元）放到每一个GPU上，这里有额外的小技巧：GPU只在中心层进行读取和写回操作。这也就意味着，例如，第三层核的输入全部来自于第二层的核（maps），而第四层仅将第三层中位于同一GPU的核作为输入。a量核的网络相比，这一模式分别降低了top-1和top-5 1.7%和1.2%的错误率。两个 GPU网络轻松地比一个GPU网络花费了更少的时间。(在最终的卷积层中，一个GPU网络实际上有着和两个GPU网络一样数量的核。这是因为大多数的网络参数都在第一个全连接层中，它们将最后一个卷积层作为输入。因此为了使两个网络有相同个数的参数，我们没有halve最终卷积层的大小（其后的全连接层也没有改变）。因此这一比较基于一个GPU支持的网络，因为它比有两个 GPU但是每个大小仅为一半的网络更大。)

3.3 局部响应正规化

ReLUs有着不需要输入正规化来防止饱和现象的性质。如果至少有一些训练样本为ReLU产生了积极的输入，那么将会在这一神经元发生学习（动作）。但是，我们仍然发现以下本地规范化方案来帮助一般化。 $a_{x,y}^i$ 表示一个神经元利用核 $i$ 在位置 $(x,y)$ 处应用ReLU线性化的动作，响应正规化动作 $b_{x,y}^i$ 的表达式为：

b i x, y = a i x, y / ⎛ ⎝ k + α \sum j = m a x (0, i - n / 2) m i n (N - 1, i + n / 2) (a i x, y) 2 ⎞ ⎠ β

$b_{x,y}^i=a_{x,y}^i/\left(k+\alpha\sum_{j=max(0,i-n/2)}^{min(N-1,i+n/2)}\left(a_{x,y}^i\right)^2\right)^\beta$
这里求和部分超过了在同一空间位置与

n n $n$ 临近的核图（kernel maps），N表示层中核的总数。当然，核图的顺序是任意的，并在训练开始前就已确定。这一局部正规化使得由真正神经元中的类型激发的侧面抑制创造了计算不同核输出神经元间的大动作的竞争。常量

k, n, α, β

$k,n,\alpha,\beta$ 是超参数，它们的值决定了有效集（validation set）。使

k=2,n=5,α=10−4,β=0.75 k = 2 , n = 5 , α = 10 − 4 , β = 0.75 $k = 2, n = 5, \alpha = 10^{-4}, \beta = 0.75$ 。在可能的层应用ReLU线性化之后，我们应用了这一正规化（见3.5部分）。这一模式降低了局部正规化和Jarrett et al. [11]的正规化相似度，但由于我们没有去掉平均动作，所以应该更加正确的措辞“亮度正规化（brightness normalization）”。响应正规化分别降低了1.4%和1.2%top-1和top-5的错误率。我们同样证实了在CIFAR-10数据集上这一模式的效果：一个四层的CNN在没有正规化的情况下达到了13%的错误率，在有正规化的情况下达到了11%的错误率。(由于空间有限，这里不能详细描述网络细节，详情请登录 http://code.google.com/p/cuda-convnet/查看代码和参数文件。)

3.4 重叠pooling

CNNs中的Pooling层总结了同一核图中邻组神经元的输出。传统上来说，通过相邻pooling单元汇总的部分并不重叠（例如[17,11,4]）。更准确来说， pooling层可以被认为是按照s像素大小分割的pooling单元的坐标图，每个都汇总了一个大小为 $z×z$ 位于pooling单元的中心的相邻的pooling单元。如果设 $s = z$ ，那么便能得到一个在CNN网络中常见的传统本地pooling。如果设 $s < z$ ，那么将得到一个重叠pooling。 $s = 2, z = 3$ 是整个网络中使用的参数。与未重叠模式中设 $s = 2, z = 2$ 相比，重叠模式分别降低了top-1和top-5错误率0.4%和0.3%，这两种模式有着相同的维度输出。由此我们可以得出，在训练过程中，带有重叠 Pooling的模型不太容易出现过拟合现象。

3.5 整体架构

这部分将开始介绍我们的CNN网络的的整体架构。正如图2中描述的一样，网络包括带weights的8层结构；前5层是卷积层，接下来的是三层全连接层。最后的全连接层将输出到一个产生超过1000类标签的1000中softmax层。我们的网络最大化了多项式逻辑回归目标，这一方式等效于最大化训练实例在预分配下正确的标记的概率对数值的平均值。
第二、四、五卷积层的核只与那些位于同一GPU的前一层核图相连接（见图 2）。第三卷积层与第二层的所有核图都相连接。在全连接层中的神经元与前一层神经元相连接。3.4节所描述的Max-pooling（最大池）层同时跟随者反馈正规化层与第五卷积层。ReLU非线性化被用于每一层卷积层与全连接层的输出。第一卷积层过滤的是大小为224 × 224 × 3，同时带有步长为4个像素大小的96 个大小为11 × 11 × 3的核的图像（步长指的是同一核图中相邻神经元接受域中心的距离）。第二卷积层将第一卷积层的输出最为输入，并将其过滤为256个大小为5 × 5 × 48大小的核（反馈正规化和池化）。第三卷积层有384个大小为3 × 3 × 256的核，并与第二卷基层的输出相连接（正规化，池化）。第四卷积层有384个大小为3 × 3 × 192的核。第五卷积层有256个大小为3 × 3 × 192的核。每个全连接层有4096个神经元。
这里写图片描述
图 2 我们CNN网络的一个说明，尤其展示了两个GPU间的责任描述。一个GPU在图像顶部运行layer-parts，而另一个GPU上在底部运行。GPU之间仅在中心层进行交流。网络的输入是150,528维度，网络中剩余层的神经元个数是：253,440–186,624–64,896–64,896–43,264– 4096–4096–1000。

4、减少过拟合

我们的神经网络架构有六千万个参数。尽管ILSVRC的1000种类别使得每个训练样本从图片到标签都将10位约束强加于mapping，但结果证明在没有大量的过拟合现象的情况下，学习如此多的参数是不足的。因此，我们将描述减少过拟合现象的两个主要方法。

4.1 增强数据

在图像数据上减少过拟合现象最简单也最常见的方法是利用标签保留转换方式人为扩大数据集（e.g., [25, 4, 5]）。我们采用了两种不同的增强数据的方法，两种方式都允许将原始图片进行很少的计算后生成变换图像。因此变换图像不需要存储在硬盘上。在我们的实现过程中，在CPU上用Python代码生成变换图像而GPU上训练上一批图像。所以实际上，这些数据增强模式几乎是没有计算量的。
第一种数据增强的方式由生成图像的转换和水平映射组成。我们通过从 256 × 256个图像中随机抽取224 × 224个补丁（和对应的水平映射），并在这些补丁上训练网络(这就是为什么在图二中输入图像是224 × 224 × 3维度)。尽管最终的训练样本是高度相互依存的，但这种方式将训练集扩大了2048倍。如果不采用这种模式，网络将会产生大量的过拟合现象，并将使我们不得不使用更小的网络。在测试时，网络通过抽取5个224 × 224大小的补丁（四个边角补丁和一个中心补丁）和对应的水平映射（共计10个补丁）做出了预测，并用在10个补丁上的网络的softmax层来计算预测值的平均值。
第二种数据增强的方式通过改变训练图像的RGB通道值实现。具体来说就是将PCA在RGB像素值上运行，其中像素值变化范围在ImageNet训练集内。对于每一个训练图像，将对相应的特征值按比例成倍的添加主成分，并通过均值为零，标准差为0.1的高斯函数绘制随机变量。因此对于每一个RGB图像值
$I_{x,y}=[I_{x,y}^R,I_{x,y}^G,I_{x,y}^B]^T$ ，添加如下内容：

[p 1, p 2, p 3] [α 1 λ 1, α 2 λ 2, α 3 λ 3,]

$[p_1,p_2,p_3][\alpha_1\lambda_1,\alpha_2\lambda_2,\alpha_3\lambda_3,]$
这里，

pi p i $p_i$ 和

λi λ i $\lambda_i$ 分别表示第

i i $i$ 个特征向量和3 × 3的协方差矩阵的RGB像素特征值，

α_{i}

$\alpha_i$ 是前面所说的随机变量。对于一个特定的训练图像的全部像素，每个

αi α i $\alpha_i$ 仅被绘制一次，在图像被再次训练之前，该点将被再次绘制。这一模式能够大致捕获自然图像的重要性能，也就是说，目标识别对于强度改变和光照颜色是不变的。这一模式减少了1%的top-1错误率。

4.2 Dropout

将众多不同的模型预测结合起来是减少错误率[1,3]最成功的方法，但对于大的神经网络来说，花费许多天来训练的代价太昂贵了。但有一个非常有效的模型结合版本仅需要花费一半的训练时间。最新介绍的技术——Dropout，将每个可能值为0.5的隐藏神经元的输出设为0。这种将神经元“dropped out”的方法不会导致前向传播和反向传播。因此，每当一个输入被确定后，神经网络会采样一个不同的结构，但是所有的这些结构都会共享权重。由于神经元不能依赖于其它特定的神经元，因此这一技术降低了神经元间相互适应的复杂度。因此，神经元必须去学习更强健的、与其他神经元的不同的自由子集相联系时更有用的特征。在测试时，我们将所有的神经元输出改为原来的0.5倍，这是一种合理的通过指数级dropout网络产生的预测分布的几何均值近似方法。
图1中，在前两个全连接层使用dropout。如果不使用dropout，网络将产生大量的过拟合。Dropout粗略的将迭代次数降至收敛范围内。

5、学习的细节

我们按照一个批次128个样例大小采用随机梯度下降法训练模型，动量值为 0.9，权重衰减值为0.0005。我们发现权重衰减值对于模型的学习非常重要。也就是说，权值衰减值不仅仅是一个正则化矩阵，它也降低了模型的训练错误。权值 $w$ 的更新规则是

v_{i + 1} := 0.9 v_{i} - 0.0005 \cdot ϵ \cdot w_{i} - ϵ \cdot ⟨ \frac{\partial L}{\partial ω} |_{w_{i}} ⟩_{D_{i}}

$v_{i+1}:=0.9v_i-0.0005\centerdot\epsilon\centerdot w_i-\epsilon\centerdot\langle\frac{\partial L}{\partial \omega}|_{w_i}\rangle_{D_i}$

w i : = w i + w i + 1

$w_i:=w_i+w_{i+1}$
这里，

i i $i$ 是迭代下标，

v

$v$ 是动量变量，

ϵ ϵ $\epsilon$ 是学习率，

⟨∂L∂ω|wi⟩Di ⟨ ∂ L ∂ ω | w i ⟩ D i $\langle\frac{\partial L}{\partial \omega}|_{w_i}\rangle_{D_i}$ 是第

i i $i$ 个块

D_{i}

$D_i$ 在目标

w w <script type="math/tex" id="MathJax-Element-38">w</script>处的导数的平均值。在每一层，将权值初始化为均值为0，标准差为0.01的高斯分布。在第二、四、五卷积层和隐藏的全连接层将神经元偏差初始化为常量1。这一初始化方式通过提供ReLUs的积极输入加速了早期的学习。在其他层，将神经元偏差初始化为常量0。
在训练过程中，我们手动调节所有层的学习率并保持一致。我们所采用的启发式目的是为了当有效错误率不再随着当前学习率的变化而增长时将学习率除10。学习率初始值为0.01，并在结束前递减三次。我们的网络训练90次循环 120万张图片需要用两个NVIDIA GTX型3GB大小的GPU，花费5至6天。

6、结果

我们在ILSVRC-2010集的结果在表1中列出。我们的网络top-1和top-5的错误率分别达到了37.5%和17.0%。(4.1节中所阐述的没有计算10个补丁块的平均预测值的top-1和top-5的错误率分别为39.0%和18.3%。此前，在ILSVRC-2010竞赛中最好的表现是47.1%和和 28.2%，这一值与训练在不同特征上的6个稀疏编码模型平均预测值相接近[2]，自从那以后，最好的结果为45.7%和25.7%，这一值与训练在Fisher Vectors(FVs) 集的两个分类器，根据两类密集采样特征计算的预测平均值相接近[24]。)
这里写图片描述
表 1. ILSVRC-2010 的测试结果对比。斜体标出的是其他人做出的最好结果。

图 3.由第一卷积层大小为224 × 224 × 3的输入图像学习的 96 个大小为11 × 11 × 3的卷积核。顶层的 48 个核在 GPU1 上学习，底层的在 GPU2 上学习。详见 6.1 节。
这里写图片描述
表 2.ILSVRC-2012 中有效集和测试集错误率的对比。斜体标出的是其他人做出的最好结果。带有星号*标记的模型是为了将全部的 ImageNet 2011 Fall 版本进行分类的“预训练”。详见第 6 节。
我们也同样参加了 ILSVRC-2012 比赛，并将结果统计在了表 2 中。由于 ILSVRC-2012 测试集标记并不公开，因此我们不能够将所有训练的测试结果的错误率公布。其它段中，由于以我们的经验来看，有效错误率和测试错误相差不超过 0.1%（见表 2），因此我们将其视为可交换的值。本篇论文中所描述的 CNN 的 top-5 错误率达到 18.2%。5 个近似的 CNN 的平均预测错误率值为 16.4%。在额外的 6 个卷积层和最后一个 Pooling 层训练 CNN 来分类 ImageNet 2011 Fall 的全部版本（15M 图片，22K 类），然后在 ILSVRC-2012 进行“微调”可使错误率达到 16.6%。将在 ImageNet 2011 Fall 的全部版本上预训练的两个 CNN 和前面所提到的五个 CNN 计算均值后，错误率为 15.3%。根据比赛记录，第二佳的错误率为 26.2%，这一值与训练在 FVs 上的若干分类器，根据不同类型的密集采样特征计算的预测平均值相接近。
最后，我们同样公布了在 Fall 2009 版本中 ImageNet 10184 个类别 890 万张图片的错误率结果。在数据集中，我们遵循了文献中要求的一半的图片用来训练另一半用来测试的约定。由于没有已建立好的测试集，我们的分割需要与以往的的分割不同，但是这并没有明显的影响结果。在这一数据集中 top-1 和 top-5 的错误率分别为 67.4%和 40.9%，采用的是描述的全部的网络以及额外的六个卷积层和最后一个 pooling 层。在这一数据集中最好的结果是 78.1%和 60.9%。
这里写图片描述
图 4.（左侧）8 个 ILSVRC-2010 测试图像和 5 个模型认为最可能的标签。正确的标签写在了每张图像的下方，可能正确的标签也用红色条显示了出来（如果它出现在前五个）。（右侧）第一列是 5 个 ELSVEC-2010 测试图像。其他列则显示了 6 个训练图像，它们在隐藏层的特征向量与测试图像的特征向量的欧几里得距离最小。

6.1 定性评估

图3描述了通过网络的两个数据连接层学习的卷积核。网络已经学习了多种频率选择核和定向选择核，以及多种色彩块（blobs）。注意在3.5节中特别描述的两个GPU，是严格连接的结果。第一个GPU中的核多半是颜色不可知的，而另一块GPU中的核多半是颜色可知的。这种专门化在每次运行中都会出现，同时它也是独立于特定的随机权值初始化的（对重新编号的GPU取模）。图4左半部分定性的评估了网络在8个测试图像中通过计算top-5预测值的学习内容。注意，即使是不在中心的目标，比如左上角的小虫子，网络也能够将其识别出来。大部分的top-5标签是有原因出现的。例如，对于豹子来说，只有其他类型的猫才会被模糊的识别为豹子。在某些情况下（格栅，樱桃），图像的预重点的确是模棱两可的。
其他探寻网络的视觉知识是在图像的最后4096维隐藏层考虑特征激活引诱方式。如果两个图片的特征激活向量是一个小的欧几里得分离，那么可以说二者神经网络的高层部分是相似的。图4展示了5个来自测试集的图片和6张来自训练集的图片，根据这一衡量标准，它们之间是最相似的。注意，在像素级别，补偿训练图片一般并不与第一列的查询图片L2相近。例如，检索到的狗和大象的姿态多种多样。我们展示了在补充材料中更过的测试图像结果。
通过计算两个4096维真值向量的欧几里得距离来计算相似度是无效的，但是可以通过训练一个能够将这些向量压缩为短二值编码的自动编码器来使得这一方法行之有效。这要产生一种比自动编码未经处理的像素更好的图像检索方法，这种方法并不利用图像的标签，因此不管边缘图案是否语义相似，它们都提供了这一种检索图像的趋势。

7、讨论

我们的结果展示了一个大而深的卷积神经网络是有能力在高挑战性的数据集上通过纯粹的有监督学习打破记录。值得注意的是，如果移除一层卷积层我们的网络性能会降低。例如，移除任何中间的一层都会导致网络的top-1性能损失2%。因此，对于达到这样的结果，网络的深度尤为重要。
为了简化实验，我们没有使用任何非监督式预训练，即使我们也希望会用效果，尤其如果我们获得足够的计算能力来大幅度扩大网络规模，在没有获得相应数量的标签数据。目前为止，我们扩大了网络并增加了训练时间，结果由此得到提升，但是为了达到可以人类的视觉系统相媲美的结果我们仍有大量的工作要做。最后，我们非常愿意将大而深的卷积网络应用于视频序列上，时间结构提供了一个丢失或静态图像并不明显的非常有用的信息。

参考文献

[1] R.M. Bell and Y. Koren. Lessons from the netflix prize challenge. ACM SIGKDD Explorations Newsletter,9(2):75–79, 2007.
[2] A. Berg, J. Deng, and L. Fei-Fei. Large scale visual recognition challenge 2010. www.imagenet.org/challenges. 2010.
[3] L. Breiman. Random forests. Machine learning, 45(1):5–32, 2001.
[4] D. Cire¸san, U. Meier, and J. Schmidhuber. Multi-column deep neural networks for image classification.Arxiv preprint arXiv:1202.2745, 2012.
[5] D.C. Cire¸san, U. Meier, J. Masci, L.M. Gambardella, and J. Schmidhuber. High- performance neural networks for visual object classification. Arxiv preprint arXiv:1102.0183, 2011.
[6] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet: A Large- Scale Hierarchical Image Database. In CVPR09, 2009.
[7] J. Deng, A. Berg, S. Satheesh, H. Su, A. Khosla, and L. Fei-Fei. ILSVRC-2012, 2012. URL http://www.image-net.org/challenges/LSVRC/2012/.
[8] L. Fei-Fei, R. Fergus, and P. Perona. Learning generative visual models from few training examples: An incremental bayesian approach tested on 101 object categories. Computer Vision and Image Understanding,106(1):59–70, 2007.

[9] G. Griffin, A. Holub, and P. Perona. Caltech-256 object category dataset. Technical Report 7694, California Institute of Technology, 2007. URL http://authors.library.caltech.edu/7694.
[10] G.E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R.R. Salakhutdinov.
Improving neural networks
by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, 2012.
[11] K. Jarrett, K. Kavukcuoglu, M. A. Ranzato, and Y. LeCun. What is the best multi-stage architecture for object recognition? In International Conference on Computer Vision, pages 2146–2153. IEEE, 2009.
[12] A. Krizhevsky. Learning multiple layers of features from tiny images. Master’s thesis, Department of Computer Science, University of Toronto, 2009.
[13] A. Krizhevsky. Convolutional deep belief networks on cifar-10. Unpublished manuscript, 2010.
[14] A. Krizhevsky and G.E. Hinton. Using very deep autoencoders for content-based image retrieval. In ESANN, 2011.
[15] Y. Le Cun, B. Boser, J.S. Denker, D. Henderson, R.E. Howard, W. Hubbard,
L.D. Jackel, et al. Handwritten digit recognition with a back-propagation network. In Advances in neural information processing systems, 1990.
[16] Y. LeCun, F.J. Huang, and L. Bottou. Learning methods for generic object recognition with invariance to pose and lighting. In Computer Vision and Pattern Recognition, 2004. CVPR 2004. Proceedings of the 2004 IEEE Computer Society Conference on, volume 2, pages II–97. IEEE, 2004.
[17] Y. LeCun, K. Kavukcuoglu, and C. Farabet. Convolutional networks and applications in vision. In Circuits and Systems (ISCAS), Proceedings of 2010 IEEE International Symposium on, pages 253–256.IEEE, 2010.
[18] H. Lee, R. Grosse, R. Ranganath, and A.Y. Ng. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. In Proceedings of the 26th Annual International Conference on Machine Learning, pages 609–616. ACM, 2009.
[19] T. Mensink, J. Verbeek, F. Perronnin, and G. Csurka. Metric Learning for Large Scale Image Classification:Generalizing to New Classes at Near-Zero Cost. In ECCV - European Conference on Computer Vision, Florence, Italy, October 2012.
[20] V. Nair and G. E. Hinton. Rectified linear units improve restricted boltzmann machines. In Proc. 27th International Conference on Machine Learning, 2010.
[21] N. Pinto, D.D. Cox, and J.J. DiCarlo. Why is real-world visual object recognition hard? PLoS computational biology, 4(1):e27, 2008.
[22] N. Pinto, D. Doukhan, J.J. DiCarlo, and D.D. Cox. A high-throughput screening approach to discovering good forms of biologically inspired visual representation. PLoS computational biology, 5(11):e1000579,2009.
[23] B.C. Russell, A. Torralba, K.P. Murphy, and W.T. Freeman. Labelme: a database and web-based tool for image annotation. International journal of computer vision, 77(1):157–173, 2008.
[24] J. Sánchez and F. Perronnin. High-dimensional signature compression for large- scale image classification.In Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on, pages 1665–1672. IEEE,2011.
[25] P.Y. Simard, D. Steinkraus, and J.C. Platt. Best practices for convolutional neural networks applied to visual document analysis. In Proceedings of the Seventh International Conference on Document Analysis and Recognition, volume 2, pages 958–962, 2003.
[26] S.C. Turaga, J.F. Murray, V. Jain, F. Roth, M. Helmstaedter, K. Briggman,W. Denk, and H.S. Seung. Convolutionalnetworks can learn to generate affinity graphs for image segmentation. Neural Computation,22(2):511–538, 2010.

小胖蹄儿

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
论文翻译：ImageNet Classification with Deep Convolutional nerual network

这篇文章是我大四毕设的翻译外文文献，第一次翻译，而且以前也没有接触过深度学习方面的内容，很多词语表述还存在问题，有待修改。基于深度卷积神经网络的图片网络分类Alex Krizhevsky University of Toronto kriz@cs.utoronto.ca Ilya Sutskever University of Toronto ...
复制链接

扫一扫

专栏目录