ImageNet Classification with Deep Convolutional Neural Networks翻译

最新推荐文章于 2024-05-26 21:49:12 发布

忧与爱

最新推荐文章于 2024-05-26 21:49:12 发布

阅读量1.4k

点赞数

文章标签：经典alexnet论文翻译

基于深度卷积的图像集分类神经网络

Alex Krizhevsky Ilya Sutskever Geoffrey E. Hinton

多伦多大学多伦多大学多伦多大学

摘要

为了将在ImagNet LSVRC-2010比赛中的120万张高分辨率图片分成1000个不同的类别，我们训练了一个大型深度卷积神经网络。在测试数据上，我们实现了top-1错误率37.5%，top-5错误率17.0%，这个效果比以前最好的技术的都要好得多。该神经网络有6000万个参数和650,000个神经元，由5个卷积层，及卷积层后紧连着的最大池化层，三个全连接层，及排在最后的1000维的softmax层组成。为了使训练速度更快，我们使用非饱和神经元和高效的GPU实现卷积操作。为了减少全连接层的过拟合现象，我们采用了最新开发的称为“dropout”的正则化方法，事实证明这是非常有效的。我们在ILSVRC-2012大赛中加入了该模型的一个变体，并依靠top-5测试错误率15.3%取得了胜利，相比较下第二名的错误率是26.2%。

1引言

目前物体识别基本上都使用了机器学习方法。为了提高它们的表现，我们可以收集更大的数据集，学习训练更强大的模型，并用更好的技术来避免过拟合现象。直到最近，有标签的数据集都相对较小，一般只有万张数量级（比如NORB、 Caltech及CIFAR-10数据集）。简单的识别任务可以在这个数量级的数据集上得到很好解决，特别是当它们用标签保留转换增强了的时候。例如，在MNIST数据集上最低的数字识别错误率（<0.3%）已经接近人类的表现[4]。但是模型识别现实背景中物体的能力表现得相对不稳定，因此为了识别这些物体就必须使用更大的训练集。事实上，使用小规模图像数据集的缺陷已经被广泛认同（例如，Pinto等人[21]），但是直到最近收集上百万张带有标签的图像数据集才成为可能。这些新的大型数据集包括LabelMe [23]（它由几十万张完全分割图片组成），还有ImageNet [6]数据集（它由1500万张标签过的高分辨率图片组成，覆盖了超过22000个种类）。

为了从几百万张图片中学习数以千计的物体，我们需要一个有强大学习能力的模型。然而，物体识别任务及其复杂性意味着即使有ImageNet这么大的数据集，这个问题也很难解决。所以我们的模型需要有大量的先验知识来弥补所缺失的数据。卷积神经网络（CNNs）就是这样一种模型[16, 11, 13, 18, 15, 22, 26]。它们的学习能力可以通过控制网络的深度的与宽度来调整，它们也可以对图片的本质（即统计数据的稳定性和像素依赖关系的局部性）做出强大且基本正确的假设。因此，与相同大小的标准前馈神经网络相比，CNNs有更少的连接关系及参数，所以更容易训练，而其理论上的最佳表现可能只比前馈神经网络略差。

虽然CNNs的性质很好，而且对于局部结构有相对高的效率，但将它们大规模地应用到大量高分辨率图像中代价仍然是极其昂贵的。幸运的是，目前GPU搭配了高度优化的2D卷积工具，它们足够强大，能够加快大规模CNNs的训练过程，而且最近的数据集比如ImageNet数据集包含足够多的带标签样本来训练这些模型，而且还不会有严重的过拟合现象。

本文的具体贡献如下：我们在ILSVRC-2010和ILSVRC-2012大赛中使用过的ImageNet的子集上[2]，训练了迄今为止最大的卷积神经网络之一，并达到了迄今为止最好的效果。我们编写了一个高度优化的GPU2D卷积工具，以及训练卷积神经网络过程中的所有其他操作，并将其公之于众。我们的网络包含一些新的不同寻常的特征，这提高了网络的性能，并减少了它的训练时间，具体在第3节介绍。我们的网络拥有120万个带标签的训练样本，这么大的规模使得过拟合成为一个严重的问题，所以我们使用了几种有效的方法来防止过拟合现象，这将在第4节描述。我们的网络最终包含5个卷积层和3个全连接层，这个深度也许是重要的：我们发现去除任意一个卷积层（其中每一个卷积层包含模型的参数都不超过1%）都会导致更差的表现。

最后，网络的规模主要受限于当前GPU的可用内存，及我们愿意容忍的训练时间。我们的网络在两块GTX 580 3GB GPUs上训练需要五至六天。我们所有的实验表明：只要等更快的GPU和更大的数据集出现，我们的结果就可以很容易地提高。

2 数据集

ImageNet是一个拥有超过1500万张带标签的高分辨率图片（隶属于22000个类别）的数据集。这些图片是从网上收集，并由亚马逊的Turk众包工具进行人工标记的。从2010年开始，作为PASCAL视觉目标挑战赛的一部分，被称为ILSVRC的比赛每年都会进行。ILSVRC使用ImageNet的一个子集，这个子集包括1000种类别，每种类别大概包含1000张图片。总共大约有120万张训练图片，50,000张验证图片和150,000张测试图片。

LSVRC-2010是仅有的测试集标签可得的版本，因此我们用它进行我们的大部分实验。由于我们在ILSVRC-2012比赛上输入了模型，因此在第6节中我们也会报告这个版本数据集上的结果，但其测试集标签不可获取。在ImageNet上，通常报告两个错误率：top-1和top-5，其中top-5错误率是指测试图片的标签不在模型所认为的可能性最大的五个标签中的百分比。

ImageNet数据集包含各种分辨率的图片，而我们的系统需要恒定的输入维数。因此，我们对图片进行下采样，获得固定分辨率256×256的图片。对于每张长方形的图片，我们先重新缩放图像使得短边长度为256，然后取中心区域的256×256像素。除了把每个像素中减去训练集的平均值，我们没有以任何其他方式预处理图像。所以我们的网络是在原始的RGB像素值上训练出来的。

3 模型体系结构

网络的体系结构如图2所示。它包含8个学习层——5个卷积层和3个全连接层。接下来，我们介绍一些该网络体系结构的新颖特性。3.1-3.4节是根据我们对于其重要性的评估进行排序，越重要的排在越前面。

3.1 ReLU非线性

将神经元的输出f的标准建模方法是：用将输入x函数变换为 f(x) = tanh(x)或者 f(x) = (1 + e-x)-1。就梯度下降的训练时间而言，这些饱和非线性函数比不饱和非线性函数f(x) = max(0; x)要慢得多。根据Nair和Hinton称[20]，我们用非线性神经元修正线性单元（ReLUs）。使用ReLUs的深度卷积神经网络比使用tanh的网络训练速度要快好几倍。图1展示了一个特定四层卷积神经网络在CIFAR-10数据集上达到25%的训练错误率所需的迭代次数。这张图显示，如果我们使用传统的饱和神经元模型，将不能训练如此大的神经网络完成工作。

在这里插入图片描述
图1：带ReLU的四层卷积神经网络（实线）在CIFAR-10数据集上达到25%训练错误率要比带tanh的同等神经网络（虚线）快六倍。为使得训练速度尽可能快，每个网络的学习速率是独立选取的。没有使用任何形式的正则化。这里演示的效果因网络结构的不同而不同，但带ReLU的网络学习始终比带饱和神经元的同等网络快好几倍。

我们不是最早考虑替换传统CNNs神经元模型的。例如，Jarrett等人[11]声称，非线性函数f(x)
= |tanh(x)|采用对比度归一化和局部平均值池化在Caltech-101数据集表现得特别好。然而，该数据集上的主要关注点是防止过拟合，所以他们观察到的效果不同于我们报告的为拟合训练集使用ReLU时的累积能力。更快的学习速度对于在大型数据集上训练大型模型的表现有很大影响。

3.2 多GPU并行训练

单个GTX 580 GPU只有3GB内存，这限制了可以在其训练的网络的最大规模。事实证明，充分训练网络需要120万个训练样本，这对于一个GPU而言量太大了。所以我们将网络分布在两个GPU上。现在的GPU特别适合跨GPU并行运算，因为它们能够直接向彼此的内存中做读写操作，不需要通过主机内存。我们采用的并行方案主要是在每个GPU中放置一半网络内核（或神经元），然后再采用一个额外的技巧：将GPU间的通信限定在某些特定层上。这意味着，比如，第3层的内核需要从第2层中所有内核获得输入。但是，第4层的内核只从和自己在同一个GPU的第三层内核中获得输入。选择连接模式是一个交叉验证的问题，但这让我们精确调整连接的数量，直到计算量在可接受的范围内。

由此产生的结构有点类似于Ciresan等人[5]提出的“柱状”卷积神经网络体系结构，只是我们的纵列不是独立的（见图2）。与用一个GPU训练每个卷积层只有一半内核的网络相比，该方案将top-1与top-5错误率分别减少了1.7%与1.2%。训练双GPU网络比训练单GPU网络花费的时间略少一些（实际上单GPU网络与双GPU网络在最后的卷积层有着相同数量的内核。这是因为大多数网络的参数在第一个全连接层，这需要上一个卷积层作为输入。所以，为了使两个网络有大致相同数目的参数，我们没有将最后一个卷积层大小减半（也没有将其后跟随的全连接层减半）。因此，这种比较关系更有利于单GPU网络，因为它比双GPU网络的“一半大小”要大）。

3.3 局部响应归一化

ReLUs有很好的特性，它们不需要对输入数据归一化来防止其饱和。如果至少有一些训练样例对ReLUs产生了正输入，那么这个神经元就会进行学习。可是，我们仍然发现下面这种局部归一化方案有助于泛化。用 aix,y 表示点 (x,y)处通过应用内核i计算出的神经元激活度，然后应用ReLU非线性，响应归一化活动 bix,y由下式给出：

在这里插入图片描述

其中求和公式n表示同一空间中相邻于该位置的所有内核映射的数量，N是该层中内核总数。内核映射的顺序当然是任意的，且在训练之前就确定好了。受到在真实神经元中发现的类型启发，这种响应归一化实现了一种模仿生物神经元的侧向抑制，让神经元在利用不同的内核进行计算的大规模活动中产生竞争。常数k，n，α和β是超参数，它们的值由验证集确定。我们取k=2，n=5，α=10-4，β=0.75 。我们在特定层使用ReLU非线性之后应用这种归一化（见3.5节）。

该方案与Jarrett等人[11]提出的局部对比度归一化有些类似，但我们的方案更准确的描述应为“亮度归一化”，因为我们不减去平均值。响应归一化将我们的top-1与top-5错误率分别减少了1.4%与1.2%。我们还在CIFAR-10数据集上验证该方案的效果：四层CNN不带归一化时测试错误率是13%，带归一化时降到11%。

3.4 重叠池化

CNN中的池化层对同一内核映射中邻近神经元组的输出求和。一般的，通过相邻池化单元求和的邻近节点不重叠（例如，[17,11,4]）。更准确地说，一个池化层可以被看做是由间隔s个像素的池化单元网格组成，每个单元负责对相邻的z×z大小中心区域求和。若设s=z，我们得到用于大多数CNN的传统局部池化方法。若设s<z,我们就得到重叠池化。这就是在我们的网络中使用的方法，s=2 ,z=3，与无重叠的s=z=2相比，这一方案在产生相同维度的输出时分别将top-1和top-5错误率下降了0.4%和0.3%。我们还发现，采用重叠池化能稍微让模型在训练时避免过拟合现象。

3.5 整体结构

现在，我们已经可以描述CNN的整体结构了。如图2，这个网络包括8个带权值的层；前5层是卷积层，剩下3层是全连接层。最后一个全连接层的输出一个1000维的softmax层来表达对于1000个类别的预测。我们的网络使得多分类的逻辑回归目标最大化，这相当于最大化了预测分布训练样本中正确标签的对数概率平均值
在这里插入图片描述

图2：CNN体系结构描述，明确显示了两个GPU之间的对应关系。一个GPU运行图中上面的层次部分，而另一个GPU运行图中下面的层次部分。GPU之间仅在特定的层间通信。该网络的输入是150,528维的，且该网络剩下各层的神经元数分别为253440，186624，64896，64896，43264，4096，4096，1000。

第2、4、5个卷积层的内核只与前一层也位于同一GPU上的内核映射连接（见图2）。第3层的内核与第二层全部内核映射相连接。全连接层中的神经元与上层所有神经元都有连接。响应归一化层跟在第1、第2个卷积层后面。最大池化层（如3.4节所讨论）跟在响应归一化层以及第5个卷积层之后。ReLU非线性应用于每个卷积层及全连接层的输出。

第1个卷积层利用96个大小为11×11×3、步长为4个像素（步长是相邻神经元感受野中心之间的距离）的内核，来对大小为224×224×3的输入图像进行滤波。第2个卷积层将第1个卷积层的输出作为输入（响应归一化并池化），然后用256个5×5×48的内核进行滤波。第3、第4和第5个卷积层彼此相连，之间没有池化层和归一层。第3个卷积层有384个3×3×256的内核，连接着第2个卷积层的输出（归一化和池化）。第4个卷积层有384个3×3×192的内核，第5个卷积层拥有256个3×3×192的内核。每个全连接层各有4096个神经元。

4 减少过拟合

我们的神经网络结构有6000万个参数。虽然ILSVRC的1000个类别将从图片到标签的映射限制在10比特，这依然不能训练这么多的参数而不造成过拟合现象。下面，我们将主要介绍两种减少过拟合现象的方法。

4.1 数据集增强

最简单最常用减少过拟合的方法就是使用标签保留变形技术来人为扩大数据集（例如文献[25,4,5]）。我们采取两种不同形式的数据放大，这两种形式都允许仅对原图做少量计算而产生变形的新图片，所以变形后的新图片不需要存储在磁盘上。在我们的实现中，变形图片是由CPU上的Python代码生成的，而GPU仍在计算其它之前批次的图片。所以这种数据集增强方法实际上很高效节省资源的。

第一种数据集增强的方法由图片翻转和水平镜像组成。我们从256×256的图像中随机提取224×224的区块（及其水平镜像），并在这些提取的区块上训练我们的神经网络（这就是图2中输入图像是224×224×3维的原因）。这使得我们的训练集规模扩大了2048倍，虽然由此产生的训练图片明显是相互关联的。如果没有这个方法，我们的网络会有大量的过拟合现象，进而迫使我们使用更小的网络。在测试时，该网络通过提取五个224×224的区块（四个边角和中心）及其水平镜像进行预测，然后将softmax层对这10个区块做出的预测取平均。

第二种数据集增强的方法是对训练片中RGB频谱密度进行改变。具体来说，我们在整个ImageNet训练集上对RGB像素进行主成分分析。对于每张训练图片，我们通过均值为0方差为0.1的高斯分布产生一个随机值a，然后通过向图像中加入更大比例相应特征值的a倍，把其主成分翻倍。因此，对于每个RGB图像像素 Ixy= [ IxyR,Ixy,G IxyB]T，我们增加下面这项：
在这里插入图片描述

其中Pi与 i分别是RGB像素3×3协方差矩阵的第i个特征向量与特征值，ai 是前面提到的随机变量。对于特定训练图像的所有像素每个ai 仅提取一次，直到这张图再次被用于训练才会再次提取随机变量。这个方案大致抓住了原始图片的重要特征，即那些不随光线强度与颜色变化的物体特征。该方法将top-1误差率降低1%以上。

4.2 Dropout

结合许多不同模型的预测结果是一种有效降低测试误差的方式[1,3]，但这种方法需要几天的训练时间，似乎对于大型神经网络来说太过昂贵。然而，有一个非常有效的模型组合版本，它在训练中只花费两倍于单个模型的时间。这种新推出的技术叫做“dropout”[10]，它会以50%的概率将每个隐藏层神经元的输出置零。以这种方法被置零的神经元不再参与前向传播和反向传播。所以一个输入进来后，该神经网络就被置为不同的结构，但是所有这些结构之间共享权重。因为每个神经元不能依赖于其他特定神经元在，所以这种技术降低了神经元间相互适应的复杂性。正因如此，模型被迫学习更为健壮的特征，使之能够被许多不同的随机神经元子集使用。测试时，我们使用所有的神经元，但将其输出乘以0.5，对于获取指数级dropout网络产生的预测分布的几何均值，这是一种合理的近似方法。

我们在图2中前两个全连接层使用dropout。否则，我们的网络会出现严重的过拟合现象。dropout使收敛所需的迭代次数大致增加一倍。

5 学习的详细过程

我们每个训练批次有128个样本，使用随机梯度下降法训练，设置动力为0.9、权重衰减因子为0.0005。我们发现，这少量的权重衰减对于模型学习很重要。换句话说，权重衰减因子不仅仅是一个正则化矩阵，它还可以减少模型的训练误差。对于权重w的更新规则为

在这里插入图片描述

其中i是迭代代指数，v是动力变量，ε是学习率， Di 是第i批次的目标函数关于w的导数Di 的平均值。

我们用均值为0标准差为0.01的高斯分布初始化了每一层的权重。用常数1初始化了第2、第4和第5个卷积层以及全连接隐藏层的偏置神经元。该初始化通过向ReLUs提供正输入，加速了学习的早期阶段。我们将其它层的偏置神经元初始化为0。

在整个训练过程中，我们在所有层都使用手动调整相等的学习速率。我们采取的启发方法是，当验证误差率不再降低时，就将当前的学习率除以10。学习率初始化为0.01，并在结束前减少三次。我们通过120万张图像训练网络并训练了90轮，在两个NVIDIA GTX 580 3GB GPU上花了五到六天。

6 实验结果

我们在ILSVRC-2010数据集上的结果总结于表1中。我们的网络top-1和 top-5测试集错误率分别为37.5% 和17.0%（若没有如4.1节所述的在十个区块上平均预测，误差率是39.0%与18.3%）。在此之前ILSVRC-2010大赛中取得的最好表现是47.1%与28.2%，采用的方法是用不同特征训练六个稀疏编码模型，对这些模型产生的预测求平均值[2]，自那之后公布的最好结果是45.7%与25.7%，采用的方法是在两个不同取样密度的费舍尔向量（FVs）上训练分类齐器，再对这两个分类器的预测求平均值[24]。

在这里插入图片描述
表1：ILSVRC-2010测试集上的结果比较。斜体字是他人取得的最好结果。

我们也在ILSVRC-2012大赛中输入了我们的模型，并在表2中展示结果。由于ILSVRC-2012测试集标签是不公开的，我们不能报告试过的所有模型的测试错误率。在本段的其余部分，我们将用验证误差率代替测试错误率互，因为根据我们的经验，它们相差不超过0.1%（见表2）。本文所描述的卷积神经网络实现了18.2%的top-5错误率。5个相似CNN平均 top-5错误率为16.4%。训练一个比之前所说的5个卷积层还多1个卷积层的CNN去分类整个ImageNet 2011数据集（1500万张图像，22000种类别），然后进行微调，在ILSVRC-2012上可以达16.6%的top-5错误率。两个在ImageNet 2011秋季数据集上预训练的CNN，加上先前提到的五个CNN，平均top-5错误率为 15.3% 。比赛中的第二名实现了top-5为26.2%的错误率，用的是对几个在特征取样密度不同的费舍向量上训练的分类器的预测结果取平均的方法[7]。

在这里插入图片描述
表2：在ILSVRC-2012验证集与测试集上的错误率比较。斜体字是由他人取得的最好结果。带星号的模型是经过“预训练”以对整个ImageNet 2011秋数据集进行分类的。详见第6节。

最后，我们还报告模型在ImageNet 2009年秋版本上的错误率，该数据集有10,184种类别与890万张图像。在这个数据集上，我们按照文献惯例，用一半图像训练另一半图像来测试。由于没有确定的测试集，我们的划分必然不同于以前的作者使用的划分，但这并不会显著地影响到结果。我们在该数据集上的top-1误差率和top-5错误率分别为67.4%和40.9%，这是通过上述的网络得到的，但第六个卷积层接在最后一个pooling层之后。该数据集上公布的最佳结果是78.1%和60.9%[19]。

6.1 定量分析

图3显示了网络的两个数据连接层学习到的卷积内核。该网络已经学习到各种各样的频率与方向选择内核，还有一系列颜色块。注意两个GPU显现出不同的特性，这是3.5节中描述了限制互联方式的结果。GPU1上的内核大多数颜色不明确，而GPU2上的内核大多数颜色明确。这种特性在每一次运行中都会出现，且独立于所有特定权值随机初始化（GPU重新编号）。
在这里插入图片描述
图3：通过输入图像上第一个卷积层学习到的96个大小为 11113的卷积核。顶部的48个核是从GPU1上学到的，底部的48个核是从GPU2上学到的。详见6.1节。

在图4的左侧，我们定量地展示通过计算该网络在八个测试图像上的top-5预测，我们定性地判断它学到了什么。注意到即使是偏离中心的物体，比如左上角的螨虫，也可以被网络识别。大多数的top-5标签似乎合情合理。例如，只有其他类型的猫科动物才被判别是豹子的可能标签。在某些例子中（铁栅、樱桃），确实对于究竟该关注哪个物体存在歧义。
在这里插入图片描述图4：（左图）八个ILSVRC-2010测试图像，以及被我们的模型认为最有可能的五个标签。正确的标签写在每个图像下面，正确标签的概率也用红色条显示（若它在前5之内）。（右图）第一列是五个ILSVRC-2010测试图像。其余列显示了六个训练图像，它们在最后的隐藏层产生的特征向量与测试图像的特征向量有最小的欧氏距离。

另一个研究可视化网络所学视觉知识的方法是：考虑最后一个4096维隐藏层所激活的特征向量。如果两张图像的向量欧式距离很小，我们可以说很大程度上神经网络认为它们是相似的。图4展示了5张测试集图像的，以及根据这一标准找出与其最相似的六张训练集图片。注意，在像素级别，检索到的训练图像一般不会接近第一列中的查询图像。例如，检索到的狗和大象表现出各种各样的姿势。我们会用更多的测试集图片支持证明这一观点。

通过使用两个4096维实数向量之间的欧氏距离来计算相似性是低效的，但可以通过训练一个自动编码器将这些向量压缩为二进制代码来提高效率。这应该会产生一个比对原始像素进行自编码要好得多的图像检索方法[14]，因为它不利用图像标签，因此它倾向于找出具有同样边缘模式的图片，而不是语义相似的图。

7 讨论

我们的研究结果表明，大型深度卷积神经网络能够在一个极具有挑战性的数据集上使用纯粹的监督学习，能够达到破纪录的结果。值得注意的是，如果有一个卷积层被移除，我们的网络性能就会降低。例如，除去任何隐藏层都将导致该网络的top-1性能有2%的损失。所以深度对于结果确实很重要。

为了简化实验，我们没有使用任何无监督的预训练，即使我们预计它将带来帮助，特别是我们能够获得足够的计算能力来显著地扩大网络规模，而不相应地增加标签数据量。到目前为止，通过增大网络规模、进行更长时间的训练我们的结果已有所改善。但是为了能够像人类视觉系统一样感知时序路径，我们仍有很多路要走。最终我们想要在视频序列上使用大型的深度卷积网络，因为其中的时序结构会提供非常有用的信息，这些信息在静态图像中丢失，或远远没有那么明显。

参考文献

[1] R.M. Bell and Y. Koren. Lessons from the netflix prize challenge. ACM SIGKDD Explorations Newsletter,9(2):75–79, 2007.

[2] A. Berg, J. Deng, and L. Fei-Fei. Large scale visual recognition challenge 2010. www.imagenet. org/challenges. 2010.

[3] L. Breiman. Random forests. Machine learning, 45(1):5–32, 2001.

[4] D. Cire¸san, U. Meier, and J. Schmidhuber. Multi-column deep neural networks for image classification.Arxiv preprint arXiv:1202.2745, 2012.

[5] D.C. Cire¸san, U. Meier, J. Masci, L.M. Gambardella,and J. Schmidhuber. High-performance neuralnetworks for visual object classification. Arxiv preprint arXiv:1102.0183, 2011.

[6] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L.Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database. In CVPR09, 2009.

[7] J. Deng, A. Berg, S. Satheesh, H. Su, A. Khosla, and L. Fei-Fei. ILSVRC-2012, 2012. URL

http://www.image-net.org/challenges/LSVRC/2012/.

[8] L. Fei-Fei, R. Fergus, and P. Perona. Learning generative visual models from few training examples: An incremental bayesian approach tested on 101 object categories. Computer Vision and Image Understanding, 106(1):59–70, 2007.

[9] G. Griffin, A. Holub, and P. Perona. Caltech-256 object category dataset. Technical Report 7694, California Institute of Technology, 2007. URL http://authors.library.caltech.edu/7694.

[10] G.E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R.R. Salakhutdinov. Improving neural networks

by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, 2012.

[11] K. Jarrett, K. Kavukcuoglu, M. A. Ranzato, and Y. LeCun. What is the best multi-stage architecture for object recognition? In International Conference on Computer Vision, pages 2146–2153. IEEE, 2009.

[12] A. Krizhevsky. Learning multiple layers of features from tiny images. Master’s thesis, Department of Computer Science, University of Toronto, 2009.

[13] A. Krizhevsky. Convolutional deep belief networks on cifar-10. Unpublished manuscript, 2010.

[14] A. Krizhevsky and G.E. Hinton. Using very deep autoencoders for content-based image retrieval. In ESANN, 2011.

[15] Y. Le Cun, B. Boser, J.S. Denker, D. Henderson, R.E. Howard, W. Hubbard, L.D. Jackel, et al. Handwritten

digit recognition with a back-propagation network. In Advances in neural information processing systems, 1990.

[16] Y. LeCun, F.J. Huang, and L. Bottou. Learning methods for generic object recognition with invariance to pose and lighting. In Computer Vision and Pattern Recognition, 2004. CVPR 2004.Proceedings of the 2004 IEEE Computer Society Conference on, volume 2, pages II–97. IEEE, 2004.

[17] Y. LeCun, K. Kavukcuoglu, and C. Farabet. Convolutional networks and applications in vision. In Circuits and Systems (ISCAS), Proceedings of 2010 IEEE International Symposium on, pages 253–256. IEEE, 2010.

[18] H. Lee, R. Grosse, R. Ranganath, and A.Y. Ng. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. In Proceedings of the 26th Annual International Conference on Machine Learning, pages 609–616. ACM, 2009.

[19] T. Mensink, J. Verbeek, F. Perronnin, and G. Csurka. Metric Learning for Large Scale Image Classification: Generalizing to New Classes at Near-Zero Cost. In ECCV - European Conference on Computer Vision, Florence, Italy, October 2012.

[20] V. Nair and G. E. Hinton. Rectified linear units improve restricted boltzmann machines. In Proc. 27th International Conference on Machine Learning, 2010.

[21] N. Pinto, D.D. Cox, and J.J. DiCarlo. Why is real-world visual object recognition hard? PLoS computational biology, 4(1):e27, 2008.

[22] N. Pinto, D. Doukhan, J.J. DiCarlo, and D.D. Cox. A high-throughput screening approach to discovering good forms of biologically inspired visual representation. PLoS computational biology, 5(11):e1000579,2009.

[23] B.C. Russell, A. Torralba, K.P. Murphy, and W.T. Freeman. Labelme: a database and web-based tool for image annotation. International journal of computer vision, 77(1):157–173, 2008.

[24] J. Sánchez and F. Perronnin. High-dimensional signature compression for large-scale image classification.

In Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on, pages 1665–1672. IEEE, 2011.

[25] P.Y. Simard, D. Steinkraus, and J.C. Platt. Best practices for convolutional neural networks applied to visual document analysis. In Proceedings of the Seventh International Conference on Document Analysis and Recognition, volume 2, pages 958–962, 2003.

[26] S.C. Turaga, J.F. Murray, V. Jain, F. Roth, M. Helmstaedter, K. Briggman,W. Denk, and H.S. Seung. Convolutional networks can learn to generate affinity graphs for image segmentation. Neural Computation,22(2):511–538, 2010.

忧与爱

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ImageNet Classification with Deep Convolutional Neural Networks翻译

为了将在ImagNet LSVRC-2010比赛中的120万张高分辨率图片分成1000个不同的类别，我们训练了一个大型深度卷积神经网络。在测试数据上，我们实现了top-1错误率37.5%，top-5错误率17.0%，这个效果比以前最好的技术的都要好得多。该神经网络有6000万个参数和650,000个神经元，由5个卷积层，及卷积层后紧连着的最大池化层，三个全连接层，及排在最后的1000维的softmax层组成。为了使训练速度更快，我们使用非饱和神经元和高效的GPU实现卷积操作。为了减少全连接层的过拟合现象，我
复制链接

扫一扫