AlexNet翻译

最新推荐文章于 2022-10-18 11:30:57 发布

imagenoob

最新推荐文章于 2022-10-18 11:30:57 发布

阅读量589

点赞数

文章标签：神经网络经典论文翻译

本文链接：https://blog.csdn.net/imagenoob/article/details/87947156

版权

ImageNet Classification with Deep Convolutional Neural Networks
用深度卷积神经网络对ImageNet数据集进行分类

摘要
在2010年ImageNet 大规模视觉识别挑战赛（LSVRC-2010）中，我们训练了一个大型深度卷积神经网络将120万张高分辨率图像分成1000个不同的种类。在测试数据集上，我们的top-1错误率为37.5%，top-5错误率为17.0%，明显优于之前的最好水平。神经网络有6000万个参数和65万个神经元，有5个卷积层，其中一些卷积层后连接最大池化层（max-pooling），最后是三个全连接层，用softmax函数进行对1000类进行分类。为了使训练更快，我们使用了非饱和神经元，并利用GPU进行高效的卷积运算。为了减少全连接层的过拟合，我们采用了最近开创的正则化方法“dropout”，该方法被证明是非常有效的。我们还在2012的大规模视觉识别挑战赛比赛中加入了该模型的一个变化形式，获得了15.3%的top-5测试错误率，而第二名的测试错误率为26.2%。

序言
四年前， Yann LeCun及其合作者的一篇论文被领先的计算机视觉会议否决，理由是它使用了神经网络，因此无法提供用神经网络设计的视觉系统的解释。与此同时，大多数的计算机视觉研究者所相信的是一个视觉系统需要通过对任务性质的详细了解来仔细手工设计。他们假设，仅仅通过向神经网络展示图像的例子和它们所包含的对象的名称这些训练数据中获得了所需要的知识是无法解决对自然图像中的对象进行分类的任务的。
在视觉研究社区许多人没有意识到的是那些需要由理解该领域的程序员手工精心设计的方法不能伸缩，同样，那些用强大的通用学习过程代替程序员的方法也不能伸缩。有足够的计算能力和足够的计算数据，对于需要整合许多不同的、嘈杂的线索的任务，学习胜过编程。
四年前，当我们在多伦多大学(University of Toronto)的时候，我们称为“监督视觉”(SuperVision)的深层神经网络几乎将自然图像中物体识别的错误率降低了一半，并引发了计算机视觉迟来的思考模式转变。图4显示了一些有监督的视觉可以完成的示例。
监督是从20世纪80年代被广泛研究的多层神经网络发展而来的。这些网络使用多层特征检测器并通过训练数据进行学习。神经科学家和心理学家曾假设，这种特征探测器的层次结构将提供一种具有“鲁棒”的方式来识别物体，但他们不知道如何学习这种层次结构。这是20世纪80年代十分令人振奋的时刻因为几个不同的研究小组发现多层的特征探测器可以用一种叫做后向传播（back propagation）[18,22,27,33]的相对简单算法进行训练，对每一个图像，整个网络的分类性能如何将取决于在每个连接上的权重。
反向传播可以很好地完成各种任务，但在20世纪80年代，它没有达到倡导者的那么高的期望。特别是，事实证明，学习多层网络是非常困难的，而这些网络本应是最令人印象深刻的结果。许多研究人员错误地得出结论，从随机初始权值学习深度神经网络太难了。二十年后，我们知道哪里出了问题:为了让深层神经网络发光，它们需要更多的标记数据和更强大的计算能力。

前言
目前的目标识别方法主要是利用机器学习的方法。我们可以收集更大的数据集，学习更强大的模型，用更好的技巧来避免过拟合提升他们的表现。标记图像的数据集还相对较小,大约是几万张图像。简单的识别任务使用这种大小的数据集可以很好地解决简单，特别是如果使用保存标签的转换来增强这些任务。比如，现在在MNIST数据集数字识别任务的当前最佳错误率接近人类的水平（<0.3%）。但是在现实环境中的能力就表现得不太稳定，所以用更大的数据集去识别他们是十分有必要的。事实上，小数据集的缺点被广泛认可，但直到最近收集有标签的百万数量级的图片数据集才成为可能。新的更大的数据集包括LabelMe[28],包含数十万张完整分割的图像,还有ImageNet[7]，包含超过22000个类别的1500万张标记高分辨率图像。
从数以百万计的图像中学习成千上万的物体，我们需要一个学习能力更强大的模型。然而，物体识别任务的极大复杂性意味着即使一个数据集像ImageNet这么大，这个问题也很难被精确的解决。我们的模型需要大量的先验知识去补全所有的我们没有的数据。卷积神经网络（CNNs）就是这类模型[9,15,17,19,21,26,32]。它们的学习能力能被他们的深度和宽度变化来控制，他们可以对图像做出更强大和更准确的假设。因此，与具有类似大小层的标准前馈神经网络相比，CNNs具有更少的连接和参数，因此更容易训练，而其理论上的最佳性能可能只会略差。
尽管CNNs有令人吸引的特性，尽管其本地架构相对高效，但应用于大规模高分辨率图像的成本仍然高得令人望而却步。幸运的是，目前的GPU与高度优化的二维卷积实现相结合，其功能强大到足以训练大型CNNs的训练。最近的数据集，如ImageNet，包含了足够多的标记示例来训练这样的模型，且不会出现严重的过拟合。
本文的具体贡献如下所示：我们在ImageNet数据集大规模视觉识别挑战2010大规模视觉识别挑战和2012大规模视觉识别挑战中使用的ImageNet子集训练了最大的CNNs之一，并取得了目前为止最好的结果。我们编写了一个高度优化的用GPU实现的2D卷积，以及其他所有训练CNNs的固有操作，并将这些操作公开。我们的网络包含了许多新的和不寻常的特性，这些特性提高了网络的性能并减少了网络的培训时间，具体情况在第4部分介绍。即使有120万个标记的训练例子，我们的网络使过拟合也是一个重要的问题，所以我们使用了一些有效的技术来防止过拟合，这将在第5部分中描述。我们最终的网络包含5个卷积层和3个全连接层，这个深度也是很重要的：我们发现去掉任意一个卷积层都会导致较差的性能，即使每个卷积层包含不超过1%的模型参数。
最后，网络的大小主要受限于当前GPU上可用的内存和我们愿意接受的训练时间。我们的网络需要在两台GTX 580 3GB GPUs训练5到6天的时间。我们所有的实验都表明，只需等待更快的GPU和更大的数据集，我们的结果就可以得到改进。

3.数据集
ImageNet是一个超过1500万的高分辨率图像的数据集，这些图片大约属于2.2万个类别。这些图片收集自网络并由亚马逊的Mechanical Turk众包平台进行人工标记。从2010年起，作为Pascal视觉挑战赛的一部分，每年都会进行一项被称为ImageNet的数据集上的大规模视觉识别挑战赛（ILSVRC）的比赛。ILSVRC使用ImageNet的一个子集，每个类别中大约有1000个图像。总共大约有120万张训练图像、5万张验证图像和15万张测试图像。
2010年的ILSVRC是唯一可用测试集标签的ILSVRC版本，因此这是我们进行大多数实验的版本。由于我们也在ILSVRC-2012比赛中加入了我们的模型，，所以我们在第7部分也讨论了这个数据集上的实验结果，对于这个版本的数据集，测试集标签是不可用的。在ImageNet上，通常报告两个错误率:top-1和top-5。
ImageNet由可变分辨率的图像组成，而我们的系统需要一个恒定的输入维度。因此，我们对图片进行降采样获得256X256的固定分辨率的图像，对于给定的长方形的图，我们将短边调整为256，然后裁剪出中央256×256图像。我们没有以任何其他方式对图像进行预处理，除了减去训练集上的平均活动，所以我们的网络是在原始的RGB像素值上训练出来的。

4.模型体系结构
我们的网络架构如图2所示。它包含8个学习层——五个卷积层3个全连接层。下面，我们将描述网络架构的一些新颖或不寻常的特性。4.1-4.4节根据我们对其重要性的估计进行排序，最重要的优先。

4.1 ReLU非线性
标准方法模型神经元的将输入x函数变换为f(x) = tanh(x)或f(x) = (1+e^(-x) )^(-1)。在梯度下降的训练时间方面，这种饱和的非线性比非饱和的非线性f(x) = max(0,x)要慢得多。根据Nair和Hinton之后[24]，我们将具有这种非线性的神经元称为校正的线性单元(ReLUs)。带有ReLUs的深层CNNs的训练速度是tanh单位的几倍，这就是图1所展示分，其中显示了对于特定的四层卷积网络，CIFAR-10数据集上达到25%训练错误所需要的迭代次数。这张图显示如果我们采用传统的饱和神经元，我们就无法用这么大的神经网络来进行实验。
我们并不是第一个考虑替换传统CNN神经元模型的。例如，Jarrett等人[13]宣称利用f (x) = |tanh(x)|非线性在Caltech-101数据集上做对比度归一化和局部平均值池化特别有效。然而，在这数据集的主要问题是防止过拟合，们观察到的效果不同于我们使用ReLUs时报告的快速适应训练集的能力。快速学习对在大数据集上训练的大模型的性能有很大的影响。

4.2在多个GPU上训练
单个GTX580 GPU只有3GB的内存，这限制可以在其上训练的网络的最大大小。事实证明，充分训练网络需要120万张训练样本图，这对于一个GPU而言量无法容纳，因此，我们将网络扩展到两个GPU上。现在的GPU非常适合做跨GPU并行运算，因为它们可以直接读写彼此的内存，而不需要通过主机内存。我们使用的并行化方案实际上是将一半的内核(或神经元)放在每个GPU上，还有一个额外的技巧:GPU只在特定的层中通信。
这意味着，例如，第3层的内核从第2层的所有内核映射中获取输入。但是，第4层中的内核只从驻留在相同GPU上的第3层中的内核映射中获取输入。择连接模式是交叉验证的一个问题，但这允许我们这样做，直到它是计算量的一个可接受的部分。由此产生的结构会和所谓的“列（columnar）”CNN有些类似，只是我们的“列”不是独立的（请参见图2）。与在一个GPU上训练每个卷积层的内核数量为原来的一半的net相比，这种方案将我们的top-1和top-5错误率分别降低1.7%和1.2%。双GPU结构网络比单GPU网络所需的训练时间要稍微少一些。
在这里插入图片描述
4.3局部反应归一化
ReLUs具有一个理想的特性，即它们不需要输入标准化来防止饱和。如果至少有一些训练的例子产生一个积极的输入到一个ReLU，学习将发生在那个神经元。然而，我们仍然发现以下的局部归一化方案有助于推广。由a i x, y表示在(x, y)处应用核i计算得到的神经元活动，再应用ReLU非线性，响应归一化的活动bi x, y由表达式：

在这里插入图片描述
4.4重叠池化
CNNs中的池层汇总同一内核映射中相邻神经元组的输出。一般地，相邻池单元汇总的邻域不重叠[5,3,20]。更准确地说，一个池化层可以看做由相隔s个像素占据的池化单元，每个单元负责对相邻的z*z范围的中心区域求和。如果我们设置s = z，我们得到CNNs中常用的传统局部池。若设s<z，我们得到了重叠池化。
这是我们在整个网络中使用的，s =2 z = 3。与不重叠的方案s = 2、z = 2相比，该方案将top-1和top-5错误率分别降低了0.4%和0.3%，产生了等效维度的输出。我们通常在训练中观察具有重叠池的模型发现稍微更难进行过度拟合。
在这里插入图片描述
4.5网络总体结构
现在我们准备描述CNN的总体架构。如图2所示，网络包含8个具有权重的层;：前5个是卷积层，其余3个是全连接层。最后一个全连接层输出输出被提供给一个1000路softmax。我们的网络采取取最大值的多标量Logistic回归。
第二、四、五卷积层的内核只连接到上一层位于同一GPU上的内核映射(见图2)，第三层的内核连接到第二层的所有内核映射。全连接层中的神经元连接到前一层的所有神经元。响应归一化层跟在第二个卷积层之后。最大值池化层（如4.4所讨论的）跟在反应归一化层后面和第五个卷积层后面。ReLU非线性应用于每个卷积层和全连通层的输出。
第一个卷积层的输入图像是224 × 224 × 3，用96个核的大小11×11×3的步长为4像素去卷积（这是邻近神经元的感受野中心之间的距离在一个内核映射）。第二个卷积层将第一次卷积层和过滤器的输出作为输入，用256个核的大小5×5×48进行过滤。第三层、第四层和第五层卷积层连接在一起，没有任何池化层或规范化层。第三个卷积层有384个大小3 × 3 × 256的核，连着第二个卷积层。第四卷积层有384个大小3×3×192的核,和第五卷积层有256个大小3×3×192的核。全连接的层每层有4096个神经元。

5.减少过拟合
我们的神经网络架构有6000万个参数。尽管ILSVRC的1000个类使每个训练示例对从图像到标签的映射施加10位约束，但这并不足以让我们训练这么多的参数而没有明显的过拟合。下面，我们将介绍两种主要的方法来对抗过拟合。

5.1 数据扩充
减少图像数据过拟合最简单、最常见的方法是使用标签保留转换[4,5,30]，人为地放大数据集。我们使用两种不同的数据扩充形式，这两种形式都允许转换后的图像由原始图像生成，计算量很小，因此转换后的图像不需要存储在磁盘上。在我们的实现中，转换后的图像是用CPU上的Python代码生成的而GPU正在对前一批图像进行训练。因此，这些数据扩充方案节省计算资源。
数据扩充的第一种形式包括生成图像平移和水平反射。我们通过随机抽取224×224的补丁(及其水平反射)的256×256图像和训练我们的网络。这将我们的训练集的大小增加了2048倍，尽管最终的训练示例当然是高度相互依赖的。如果没有这个方案，我们的网络将遭受严重的过拟合，这将迫使我们使用更小的网络。
第二种形式的数据扩充包括改变训练图像中RGB通道的强度。具体地说，我们对整个ImageNet训练集的RGB像素值集执行PCA。图像中，我们将找到的主成分的倍数相加，其大小与相应的特征值成正比，再乘以从均值为0、标准差为0.1的高斯分布中抽取的随机变量。因此对每个RGB图像像素I xy = [I R xy, I G xy, I B xy] T我们加如下量:
在这里插入图片描述

我和λp i特征向量和特征值的3×3 RGB像素值的协方差矩阵,分别和α我是前面提到的随机变量。每个α我只画一次像素的一个特定的训练图像,图像是用来训练,此时重新绘制。该方案近似地捕获了自然图像的一个重要特性，即物体的特征不随光照强度和颜色的变化而变化。该方案将top-1错误率降低了1%以上。

5.2 dropout
结合许多不同模型的预测是减少测试错误的一个非常成功的方法[1,3]，但这种方法对于大型神经网络需要花费数天的时间来训练。然而，有一个非常有效的模型组合版本。最近研究的技术叫做“dropout”[12]，它它将每个隐藏神经元的输出设置为0，概率为0.5。以这种方式“退出”的神经元不参与正向传递，也不参与反向传播。所以每当输入出现时，神经网络会对不同的架构进行采样，但所有这些架构都具有相同的权重。这项技术减少了神经元复杂的共适应，因为一个神经元不能依赖于其他神经元的存在。因此，它被迫学习与许多不同的随机事件结合使用的更健壮的特性其他神经元的子集。在测试时间,我们使用所有的神经膜,但其输出乘以0.5,这是合理的，近似于取指数多退出网络产生的预测分布的几何平均值。
我们在图2的前两个完全连接的层中使用dropout。在不掉线的情况下，我们的网络表现出明显的过拟合。dropout大约是收敛所需迭代次数的两倍。。

6 学习细节
我们使用随机梯度下降法训练我们的模型，批大小为128个示例，动量为0.9，权值衰减为0.0005。我们发现这一小部分的重量衰减对模型的学习很重要。在其他换句话说，这里的重量衰减不仅仅是一个规律:它减少了模型的训练误差。权重w的更新规则是：
在这里插入图片描述

其中，i是迭代次数，v是增量，ε是学习速率，是第i批次的目标函数关于w的导数（wi的偏导数）Di的平均值。
我们初始化每一层的权值，从标准差为0.01的零均值高斯分布开始。我们在第二层、第四层和第五层卷积层以及完全连通隐藏层中初始化了神经元偏差层，常数是1。这个初始化通过为ReLUs提供积极的输入来加速学习的早期阶段。我们用常数0初始化剩余层的神经元偏差层，常数是1。这个初始化通过为ReLUs提供积极的输入来加速学习的早期阶段。我们用常数0初始化剩余层的神经元偏差。
我们对所有层使用相同的学习率，并在整个培训过程中手动调整。我们采用的启发式方法是，当验证错误率不再随着当前的学习而提高时，将学习率除以10。初始化学习率为0.01，终止前降低3次。我们通过120万张图像的训练集对网络进行了大约90个周期的训练，这组训练集在两个NVIDIA GTX 580 3GB GPU上花费了5-6天的时间。

7.实验结果
在这里插入图片描述
我们关于ILSVRC-2010的研究结果总结在表1中。我们的网络达到了前1和前5的测试集错误率37.5%和17.0%,分别。e在ILSVRC-2010比赛中取得的最好成绩是47.1%和28.2%，采用的方法是将6个针对不同特征的稀疏编码模型的预测结果平均起来。从那时起，最好的出版结果是45.7%和25.7%的方法，平均预测两个分类器训练的费雪向量(FVs)计算从两种类型的密集采样特征[29]。
我们也在ILSVRC-2012比赛中加入了我们的模型，结果如表2所示。由于ILSVRC-2012测试集标签不公开，所以我们不能报告我们所有试过的模型的测试错误率。在这一段的其余部分中，我们将交替使用验证和测试错误率，因为根据我们的经验，它们之间没有差别超过0.1%(见表2)，本文描述的CNN的错误率达到了前5位的18.2%。对5个类似cnn的预测进行平均，得到的错误率为16.4%。训练一个CNN，增加6个卷积层。在最后一层池中，对整个ImageNet 2011年秋季发行版进行分类，然后在ILSVRC-2012上对其进行“微调”，得到的错误率为16.6%。在2011年秋季发布的整个版本中，使用前面提到的5个CNNs对两个CNNs的预测进行预训练，平均得到的错误率为15.3%。第二好的比赛条目的错误率达到了26.2%，其方法是从不同类型的密集采样特征计算出的，在FVs上训练的多个分类器的预测平均值。
最后，我们还报告了2009年秋季版ImageNet的错误率，该版本包含10184个类别和890万张图像。在这个数据集上，我们遵循文献中使用一半图像用于训练，一半用于测试的惯例。由于没有建立测试集，我们的分割必然不同于以前的作者所使用的分割，但是这不会显著地影响结果。我们在这个数据集上的top-1和top-5错误率分别是67.4%和40.9%，这是通过上面描述的net实现的，但是在最后一个池层之上增加了第6个卷积层。在这个数据集上发表的最佳结果是78.1%和60.9%[23]。

7.1定量分析
图3显示了网络的两个数据连接层学习到的卷积内核。该网络已经学习了多种选择频率和方向的内核，以及各种颜色的斑点。注意显示的专门化由于4.5节中描述的有限连通性，由两个gpu决定。

在这里插入图片描述

在图四的左侧，我们通过计算8张测试图像的前5个预测，定性地评估了网络已经了解到的内容。请注意，即使是偏离中心的物体，如左上角的螨虫，也能被网络识别出来。大多数排名前五的标签看起来都是合理的。例如，只有其他类型的猫被认为是豹子的合理标签。在某些情况下(格栅、樱桃)，照片的预定焦点确实模糊不清。
另一种探测网络视觉知识的方法是考虑最后一个4096维隐藏层的图像所引发的特征激活。如果两幅图像产生小欧氏分离的特征激活向量，我们可以说神经网络的高层认为它们是相似的。图4显示了来自测试集的5张图像和来自训练集的6张图像，根据这个度量，这6张图像与每个图像最相似。注意，在像素级别上，在L2中检索到的训练图像通常不接近第一列中的查询图像。例如，检索到的狗和大象以不同的形式出现

在这里插入图片描述
利用欧氏距离计算相似性在两个4096维的实值向量之间是低效的，但是可以通过训练一个自动编码器将这些向量压缩成短的二进制代码来提高效率。这将产生一种比对原始像素应用自动编码器更好的图像检索方法，原始像素[16]不使用图像标签，因此有检索的趋势边缘图案相似的图像，无论它们在语义上是否相似。

8讨论
我们的结果表明，一个大的，深的CNN能够实现创纪录的结果在一个高度具有挑战性的数据集使用监督学习。值得注意的是，如果去掉一个卷积层，我们的网络性能会下降。例如，删除任何中间层都会导致网络顶级性能损失2%左右。所以深度对我们的结果很重要。
为了简化我们的实验，我们没有使用任何未经监督的预训练，尽管我们希望它会有所帮助，特别是如果我们获得了足够的计算能力，可以显著增加网络的大小，而不需要相应增加标记数据的数量。到目前为止，我们的结果有所改善，因为我们使我们的网络更大，训练更久，但我们仍然有许多数量级的工作要做，以匹配人类视觉系统的下时间路径。最后，我们希望在视频序列中使用非常大且深度的卷积网络，其中时间结构提供了非常有用的信息，即在静态图像中缺少或不太明显的信息。

9.后记
计算机视觉社区对监督成功的反应令人印象深刻。在接下来的一两年里，他们转而使用深度神经网络，现在谷歌、Facebook、微软(Microsoft)、百度等许多公司都在广泛使用这种网络。到2015年，更好的硬件、更多的隐藏层和大量的技术进步将深度卷积神经网络的错误率进一步降低了3倍，使其在静态图像方面的性能非常接近人类。这场革命的大部分功劳应归于那些多年来坚持不懈的先驱者开发CNNs技术，但缺失的关键成分是由李飞飞等人提供的，他们付出了巨大的努力来生成一个标记数据集，这个数据集最终大到足以显示神经网络的真正能力。

[参考文献]

Bell, R., Koren, Y. Lessons from the netflix prize challenge. ACM SIGKDD Explor. Newsl. 9, 2 (2007), 75–79.
Berg, A., Deng, J., Fei-Fei, L. Large scale visual recognition challenge 2010. www.image-net.org/challenges. 2010.
Breiman, L. Random forests. Mach. Learn. 45, 1 (2001), 5–32.
Cires¸an, D., Meier, U., Masci, J., Gambardella, L., Schmidhuber, J. High-performance neural networks for visual object classification. Arxiv preprint arXiv:1102.0183, 2011.
Cires¸an, D., Meier, U., Schmidhuber, J. Multi-column deep neural networks for image classification. Arxiv preprint arXiv:1202.2745, 2012.
Deng, J., Berg, A., Satheesh, S., Su, H., Khosla, A., Fei-Fei, L. In ILSVRC-2012 (2012).
Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., Fei-Fei, L. ImageNet: A large-scale hierarchical image database. In CVPR09 (2009).
Fei-Fei, L., Fergus, R., Perona, P. Learning generative visual models from few training examples: An incremental Bayesian approach tested on 101 object categories. Comput. Vision Image Understanding 106, 1 (2007), 59–70.
Fukushima, K. Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. Biol. Cybern. 36, 4 (1980), 193–202.
Griffin, G., Holub, A., Perona, P. Caltech-256 object category dataset. Technical Report 7694, California Institute of Technology, 2007.
He, K., Zhang, X., Ren, S., Sun, J. Deep residual learning for image recognition. arXiv preprint arXiv:1512.03385, 2015.
Hinton, G., Srivastava, N., Krizhevsky, A., Sutskever, I., Salakhutdinov, R. Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580 (2012).
Jarrett, K., Kavukcuoglu, K., Ranzato, M.A., LeCun, Y. What is the best multi-stage architecture for object recognition? In International Conference on Computer Vision (2009). IEEE, 2146–2153.
Krizhevsky, A. Learning multiple layers of features from tiny images. Master’s thesis, Department of Computer Science, University of Toronto, 2009.
Krizhevsky, A. Convolutional deep belief networks on cifar-10. Unpublished manuscript, 2010.
Krizhevsky, A., Hinton, G. Using very deep autoencoders for content-based image retrieval. In ESANN (2011).
LeCun, Y., Boser, B., Denker, J., Henderson, D., Howard, R., Hubbard, W., Jackel, L., et al. Handwritten digit recognition with a back-propagation network. In Advances in Neural Information Processing Systems (1990).
LeCun, Y. Une procedure d’apprentissage pour reseau a seuil asymmetrique (a learning scheme for asymmetric threshold networks). 1985.
LeCun, Y., Huang, F., Bottou, L. Learning methods for generic object recognition with invariance to pose and lighting. In Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2004, CVPR 2004. Volume 2 (2004). IEEE, II–97.
LeCun, Y., Kavukcuoglu, K., Farabet, C. Convolutional networks and applications in vision. In Proceedings of 2010 IEEE International Symposium on Circuits and Systems (ISCAS) (2010). IEEE, 253–256.
Lee, H., Grosse, R., Ranganath, R., Ng, A. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. In Proceedings of the 26th Annual International Conference on Machine Learning (2009). ACM, 609–616.
Linnainmaa, S. Taylor expansion of the accumulated rounding error. BIT Numer. Math. 16, 2 (1976), 146–160.
Mensink, T., Verbeek, J., Perronnin, F., Csurka, G. Metric learning for large scale image classification: Generalizing to new classes at near-zero cost. In ECCV – European Conference on Computer Vision (Florence, Italy, Oct. 2012).
Nair, V., Hinton, G.E. Rectified linear units improve restricted Boltzmann machines. In Proceedings of the 27th International Conference on Machine Learning (2010).
Pinto, N., Cox, D., DiCarlo, J. Why is real-world visual object recognition hard? PLoS Comput. Biol. 4, 1 (2008), e27.
Pinto, N., Doukhan, D., DiCarlo, J., Cox, D. A high-throughput screening approach to discovering good forms of biologically inspired visual representation. PLoS Comput. Biol. 5, 11 (2009), e1000579.
Rumelhart, D.E., Hinton, G.E., Williams, R.J. Learning internal representations by error propagation. Technical report, DTIC Document, 1985.
Russell, BC, Torralba, A., Murphy, K., Freeman, W. Labelme: A database and web-based tool for image annotation. Int. J. Comput Vis. 77, 1 (2008), 157–173.
Sánchez, J., Perronnin, F. Highdimensional signature compression for large-scale image classification. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2011 (2011). IEEE, 1665–1672.
Simard, P., Steinkraus, D., Platt, J. Best practices for convolutional neural networks applied to visual document analysis. In Proceedings of the Seventh International Conference on Document Analysis and Recognition. Volume 2 (2003), 958–962.
Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V., Rabinovich, A. Going deeper with convolutions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (2015), 1–9.
Turaga, S., Murray, J., Jain, V., Roth, F., Helmstaedter, M., Briggman, K., Denk, W., Seung, H. Convolutional networks can learn to generate affinity graphs for image segmentation. Neural Comput. 22, 2 (2010), 511–538.
Werbos, P. Beyond regression: New tools for prediction and analysis in the behavioral sciences, 1974.

imagenoob

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AlexNet翻译

ImageNet Classification with Deep Convolutional Neural Networks用深度卷积神经网络对ImageNet数据集进行分类摘要在2010年ImageNet 大规模视觉识别挑战赛（LSVRC-2010）中，我们训练了一个大型深度卷积神经网络将120万张高分辨率图像分成1000个不同的种类。在测试数据集上，我们的top-1错误率为37.5%，...
复制链接

扫一扫