深度学习卷积神经网络论文研读-AlexNet

最新推荐文章于 2023-04-08 16:55:39 发布

TJMtaotao

最新推荐文章于 2023-04-08 16:55:39 发布

阅读量2k

点赞数 1

分类专栏：深度学习网络结构设计文章标签：深度学习 tensorflow 机器学习神经网络

本文链接：https://blog.csdn.net/TJMtaotao/article/details/115449142

版权

深度学习网络结构设计专栏收录该内容

12 篇文章 0 订阅

订阅专栏

AlexNet模型来源于论文-ImageNet Classification with Deep Convolutional Neural Networks，作者Alex Krizhevsky，Ilya Sutskever，Geoffrey E.Hinton.

3.1 ReLU Nonlinearity

3.2 在多个GPU上训练

3.3局部响应标准化

3.4 Overlapping Pooling

摘要

我们训练了一个大型的深度卷积神经网络，将ImageNet LSVRC-2010比赛中的120万幅高分辨率图像分为1000个不同的类别。在测试数据上，我们获得了37.5%和17.0%的前1名和前5名的错误率，这比以前的技术水平要好得多。该神经网络有6000万个参数和65万个神经元，由五个卷积层组成，其中一些卷积层后面是最大池层，还有三个完全连接的层，最后是1000路softmax。为了加快训练速度，我们使用了非饱和神经元和一个非常有效的GPU实现的卷积运算。为了减少完全连接层中的过拟合，我们采用了一种最近发展起来的称为“dropout”的正则化方法，该方法被证明是非常有效的。我们还在ILSVRC-2012比赛中输入了该模型的一个变体，并获得了15.3%的前5名测试错误率，而第二名的测试错误率为26.2%。

1 简介

目前的物体识别方法主要使用机器学习方法。为了提高它们的性能，我们可以收集更大的数据集，学习更强大的模型，并使用更好的技术来防止过度拟合。直到最近，标记图像的数据集还相对较小，大约有数万张图像（例如，NORB[16]、Caltech-101/256[8,9]和CIFAR-10/100[12]）。对于这种大小的数据集，简单的识别任务可以得到很好的解决，特别是如果它们通过保留标签的转换得到增强的话。例如，MNIST数字识别任务的当前最佳错误率（<0.3%）接近人的绩效[4]。但现实环境中的物体表现出相当大的可变性，因此要学会识别它们，就必须使用更大的训练集。事实上，小型图像数据集的缺点已被广泛认识（如Pinto等人[21]），但最近才有可能收集具有数百万图像的标记数据集。新的更大的数据集包括LabelMe[23]，它由几十万个完全分割的图像组成，以及ImageNet[6]，它由超过22000个类别中超过1500万个标记的高分辨率图像组成。要从数以百万计的图像中学习成千上万的对象，我们需要一个具有较大学习能力的模型。然而，对象识别任务的巨大复杂性意味着这个问题甚至不能由像ImageNet这样大的数据集来指定，因此我们的模型也应该有大量的先验知识来补偿我们没有的所有数据。卷积神经网络（CNN）构成了这样一类模型[16，11，13，18，15，22，26]。它们的容量可以通过改变其深度和广度来控制，并且它们还对图像的性质（即统计数据的平稳性和像素依赖的局部性）做出了强有力且基本正确的假设。因此，与具有相似大小层的标准前馈神经网络相比，cnn具有更少的连接和参数，因此它们更容易训练，而其理论上最好的性能可能只是稍微差一点。

尽管CNNs具有吸引人的特性，尽管其局部结构相对高效，但在大规模应用于高分辨率图像时，其成本仍然高得令人望而却步。幸运的是，当前的GPU与高度优化的二维卷积实现相结合，强大到足以方便对有趣的大型CNN进行训练，而ImageNet等最近的数据集包含足够的标记示例，可以训练此类模型，而不需要严重的过度拟合。本文的具体贡献如下：我们在ILSVRC-2010和ILSVRC-2012竞赛中使用的ImageNet子集上训练了迄今为止最大的卷积神经网络之一[2]，并在这些数据集上取得了迄今为止最好的结果。我们编写了一个高度优化的二维卷积和训练卷积神经网络所固有的所有其他操作的GPU实现，我们公开提供1。我们的网络包含许多新的和不寻常的特性，这些特性可以提高其性能并减少其训练时间，详见第3节。我们网络的规模使得过度拟合成为一个重要的问题，即使有120万个标记的训练示例，因此我们使用了几种有效的技术来防止过度拟合，这在第4节中进行了描述。我们的最终网络包含五个卷积层和三个完全连接层，这个深度似乎很重要：我们发现移除任何卷积层（每个卷积层包含的参数不超过模型参数的1%）会导致性能低下。最后，网络的大小主要受到当前gpu上可用内存量和我们愿意容忍的训练时间的限制。我们的网络需要5到6天的时间在两个GTX 580 3GB GPU上进行训练。我们所有的实验都表明，只要等待更快的gpu和更大的数据集可用，我们的结果就可以得到改善。

2 数据集

ImageNet是一个包含超过1500万个高分辨率标记图像的数据集，属于大约22000个类别。这些图片是从网上收集的，并由人类贴标员使用亚马逊的Mechanical Turk众包工具进行标记。从2010年开始，作为Pascal视觉物体挑战赛的一部分，每年都会举办一场名为ImageNet大规模视觉识别挑战赛（ILSVRC）的比赛。ILSVRC使用ImageNet的一个子集，在1000个类别中，每个类别大约有1000个图像。总共大约有120万张训练图像、50000张验证图像和150000张测试图像。

ILSVRC-2010是ILSVRC的唯一一个测试集标签可用的版本，因此这是我们执行大多数实验的版本。由于我们也在ILSVRC-2012竞赛中输入了我们的模型，因此在第6节中，我们也报告了此版本数据集的结果，对于此版本的数据集，测试集标签不可用。在ImageNet上，通常报告两个错误率：top-1和top-5，其中top-5错误率是测试图像中正确标签不在模型认为最可能的五个标签中的部分。

ImageNet由可变分辨率的图像组成，而我们的系统需要恒定的输入维数。因此，我们将图像降采样到256×256的固定分辨率。给定一个矩形图像，我们首先重新缩放图像，使短边的长度为256，然后从结果图像中裁剪出中心的256×256面片。我们没有以任何其他方式预处理图像，除了从每个像素中减去训练集上的平均活动。所以我们根据像素的原始RGB值训练我们的网络

3结构

我们的网络架构如图2所示。它包含八个学习层-五个卷积层和三个完全连接层。下面，我们将介绍我们网络架构中一些新颖或不寻常的特性。第3.1-3.4节根据我们对其重要性的估计进行排序，最重要的部分排在第一位。

3.1 ReLU Nonlinearity

将神经元的输出f建模为其输入x的函数的标准方法是f（x）=tanh（x）或f（x）=（1+e−x）−1。在梯度下降的训练时间方面，这些饱和非线性比非饱和非线性f（x）=max（0，x）慢得多。根据Nair和Hinton[20]，我们将具有这种非线性的神经元称为校正线性单位（ReLUs）。具有ReLUs的深度卷积神经网络比具有tanh单元的深度卷积神经网络训练速度快数倍。图1展示了这一点，它显示了在特定的四层卷积网络的CIFAR-10数据集上达到25%训练误差所需的迭代次数。这个图表明，如果我们使用传统的饱和神经元模型，我们就不可能用这么大的神经网络来进行实验

我们不是第一个考虑在CNNs中替代传统神经元模型的人。例如，Jarrett等人[11]声称，非线性函数f（x）=tanh（x）|在加州理工学院-101数据集的对比度标准化和局部平均池中工作得特别好。然而，在这个数据集上，主要关注的是防止过度拟合，因此他们观察到的效果不同于我们在使用ReLUs时报告的加速拟合训练集的能力。快速学习对在大数据集上训练的大模型的性能有很大的影响。

图1：带有ReLUs（实线）的四层卷积神经网络在CIFAR-10上达到25%的训练错误率，比带有tanh神经元的等效网络（虚线）快六倍。每个网络的学习率是独立选择的，以使训练尽可能快。没有任何形式的正规化。这里展示的效果的大小随网络结构的不同而不同，但是具有ReLUs的网络总是比具有饱和神经元的网络学习速度快好几倍。

3.2 在多个GPU上训练

单个GTX 580 GPU只有3GB内存，这限制了可以在其上训练的网络的最大大小。结果证明，120万个训练示例足以训练那些太大而无法安装在一个GPU上的网络。因此，我们将网络分布在两个gpu上。当前的GPU特别适合跨GPU并行化，因为它们能够直接读写彼此的内存，而不需要经过主机内存。我们采用的并行化方案本质上是在每个GPU上放置一半的内核（或神经元），还有一个额外的技巧：GPU只在特定的层中通信。这意味着，例如，第3层的内核从第2层的所有内核映射获取输入。但是，第4层的内核只从位于同一GPU上的第3层内核映射获取输入。选择连接模式是交叉验证的一个问题，但这允许我们精确地调整通信量，直到它是计算量的可接受部分。

由此产生的架构与Cire¸san等人[5]采用的“柱状”CNN有点相似，只是我们的柱不是独立的（见图2）。与在一个GPU上训练的每个卷积层中有一半核的网络相比，该方案将我们的top-1和top-5错误率分别降低了1.7%和1.2%。两个GPU网络比一个GPU网络训练所需的时间略短。

2在最后的卷积层中，一个GPU网络的内核数实际上与两个GPU网络的内核数相同。这是因为网络的大部分参数都在第一个完全连通层中，该层以最后一个卷积层作为输入。因此，为了使两个网络具有大致相同的参数数目，我们没有将最终卷积层的大小减半（也没有将随后的完全连接层的大小减半）。因此，这种比较偏向于一个GPU网络，因为它比两个GPU网络的“一半大”。

3.3局部响应标准化

relu具有不需要输入标准化以防止饱和的理想特性。如果至少有一些训练的例子产生一个积极的输入到一个ReLU，学习将发生在该神经元。然而，我们仍然发现下面的局部归一化方案有助于泛化。由ai x表示，y在（x，y）位置应用核i，然后应用ReLU非线性计算的神经元活动，响应归一化活动bi x，y由表达式给出

其中，和在相同空间位置的n个“相邻”核映射上运行，n是层中的核总数。当然，核映射的顺序是任意的，在训练开始之前就已经确定了。这种响应标准化实现了一种受真实神经元类型启发的侧向抑制，在使用不同内核计算的神经元输出之间产生了对大活动的竞争。常数k、n、α和β是超参数，其值通过验证集确定；我们使用k=2、n=5、α=10−4和β=0.75。在某些层中应用ReLU非线性之后，我们应用了这种归一化（见第3.5节）。该方案与Jarrett等人[11]的局部对比度标准化方案有一些相似之处，但我们的方案更准确地称为“亮度标准化”，因为我们不减去平均活度。响应标准化将我们的前1和前5错误率分别降低1.4%和1.2%。在CIFAR-10数据集上，我们也验证了该方案的有效性：四层CNN在没有标准化的情况下测试错误率为13%，在标准化3的情况下测试错误率为11%。

3.4 Overlapping Pooling

CNN中的池层汇总了同一核图中的神经元相邻组的输出。传统上，由相邻合并单元汇总的邻域不重叠（例如，[17，11，4]）。更准确地说，可以将池化层视为由彼此隔开像素的池化单元网格组成，每个池化单元总结了以池化单元的位置为中心的大小为z×z的邻域。如果我们设置s= z，我们将获得传统的本地池作为CNN中常用的方法。如果设置s<z，我们将获得重叠池。这是我们在整个网络中使用的方式，s = 2， z =3。与非重叠方案s= 2，z =2相比，该方案分别将top-1和top-5的错误率降低了0.4％和0.3％。产生等效尺寸的输出。我们通常会在训练过程中观察到重叠叠加的模型发现过拟合的难度稍大一些。

现在我们准备好描述CNN的整体架构。如图2所示，网络包含八层权重；前五层是卷积的，其余三层是完全连接的。最后一个完全连接的层的输出被馈送到1000路softmax，该softmax产生超过1000个类标签的分布。我们的网络最大化了多项式logistic回归目标，这相当于最大化了预测下正确标签的对数概率的平均值分配第二，第四，第五卷积层仅连接到前一层中驻留在同一GPU上的那些内核映射（参见图2）。第三层的核与第二层的所有核映射相连。完全连接层中的神经元与前一层中的所有神经元相连。响应规范化层跟随第一和第二卷积层。第3.4节中描述的最大池层，在响应规范化层和第五卷积层之后。每个卷积层和全连接层的输出都采用了ReLU non线性。

第一卷积层的过滤器the224×224×3input图像与96内核size11×11×3with一个4像素的步伐(这是接受邻国的中心之间的距离内核映射中的神经元）。第二卷积层将第一卷积层的（响应规格化和池化）输出作为输入，并使用大小为5×5×48的256个核对其进行滤波。第三、第四和第五卷积层彼此连接，没有任何中间的池化或规格化层。第三个卷积层有384个大小为3×3×256的内核连接到第二个卷积层的输出（标准化的，池化的）。第四卷积层有384个大小为3×3×192的核，第五卷积层有256个大小为3×3×192的核。完全连接的每一层有4096个神经元。

图2:CNN架构的说明，明确显示了两个GPU之间职责的划分。一个GPU运行图形顶部的层部分，而另一个运行底部的层部分。gpu只在某些层进行通信。网络的输入是150528维的，网络其余层中的神经元数量由253440–186624–64896–64896–43264–4096–4096–1000给出。

4减少过度拟合

我们的神经网络结构有6000万个参数。尽管ILSVRC的1000个类使每个训练示例对从图像到标签的映射施加10位的约束，但这不足以在不进行大量过度拟合的情况下学习这么多参数。下面，我们将介绍两种主要的方法来对抗过度拟合

4.1数据增强

是减少图像数据过度拟合的最简单和最常见的方法是使用标签保留变换（例如[25、4、5]）人为地放大数据集。我们采用了两种不同的数据扩充形式，这两种形式都允许从原始图像生成变换后的图像，只需很少的计算，因此变换后的图像不需要存储在磁盘上。在我们的实现中，转换后的图像是在CPU上用Python代码生成的，而GPU正在对前一批图像进行训练。因此，这些数据增强方案实际上是无需计算的。数据增强的第一种形式包括生成图像平移和水平反射。我们通过从256×256图像中提取随机224×224个补丁（及其水平反射），并在这些提取的补丁4上训练我们的网络。这将我们的训练集的大小增加了2048倍，当然，产生的训练示例是高度相互依赖的。如果没有这个方案，我们的网络将遭受严重的过度拟合，这将迫使我们使用更小的网络。在测试时，网络通过提取5个224×224个补丁（四角补丁和中心补丁）及其水平反射（总共10个补丁）进行预测，并平均网络的softmax层在十个补丁上所做的预测。数据增强的第二种形式是改变训练图像中RGB通道的强度。具体来说，我们在ImageNet训练集中对RGB像素值集执行PCA。在每个训练图像中，我们添加找到的主成分的倍数，震级与相应的特征值乘以一个随机变量成比例，该随机变量从高斯分布中提取，平均值为零，标准偏差为0.1。因此，对于每个RGB图像像素Ixy=[IR xy，IG xy，IB xy]，我们添加以下数量：

其中，pi and λ分别是RGB像素值的3×3协方差矩阵的第i个特征向量和特征值，α是上述随机变量。对于特定训练图像的所有像素，每个α仅绘制一次，直到该图像再次用于训练，此时它被重新绘制。该方案近似地捕捉到了自然图像的一个重要特性，即物体身份对光照强度和颜色的变化是不变的。该方案将top-1错误率降低了1%以上。

4.2丢弃

结合许多不同模型的预测是减少测试误差的一个非常成功的方法[1，3]，但是对于已经需要几天时间训练的大型神经网络来说，它似乎太昂贵了。然而，有一个非常有效的模型组合版本，在训练期间只需花费大约两倍的成本。最近引入的技术称为“dropout”[10]，它将每个隐藏神经元的输出设置为零，概率为0.5。以这种方式“退出”的神经元不参与正向传递，也不参与反向传播。因此，每次输入时，神经网络都会对不同的结构进行采样，但所有这些结构都共享权重。这种技术减少了神经元复杂的共同适应，因为神经元不能依赖于其他特定神经元的存在。因此，它被迫学习更健壮的特征，这些特征与其他神经元的许多不同的随机子集结合起来是有用的。在测试时，我们使用了所有的神经元，但将它们的输出乘以0.5，这是一个合理的近似值，以获取指数多个退出网络产生的预测分布的几何平均值。我们在图2的前两个完全连接的层中使用dropout。没有辍学，我们的网络表现出实质性的过度拟合。Dropout大约是收敛所需迭代次数的两倍。

5 学习细节

随机梯度下降法训练模型，批量大小为128个示例，动量为0.9，权重衰减为0.0005。我们发现这种少量的重量衰减对模型的学习很重要。换句话说，这里的权重衰减不仅仅是一个正则化器：它减少了模型的训练误差。

其中i是迭代次数，v是动量变量是学习率，和D∂L∂w？wi E是目标相对于w的第i批导数的平均值，在wi处进行评估。我们从一个标准偏差为0.01的零均值高斯分布初始化每一层的权重。我们用常数1初始化了第二、第四和第五卷积层以及完全连接的隐藏层中的神经元偏差。这种初始化通过向relu提供积极的输入来加速早期的学习。我们用常数0初始化剩余层中的神经元偏差。我们对所有层使用相同的学习速率，在整个培训过程中手动调整。我们遵循的启发式方法是，当验证错误率不再随着当前学习率的提高而提高时，将学习率除以10。学习率初始化为0.01和在终止前减少三倍。我们通过120万张图像的训练集训练网络大约90个周期，这在两个NVIDIA GTX 580 3GB gpu上花费了5到6天时间。

6 结果

表1:ILSVRC2010测试集结果比较。斜体字表示其他人取得的最佳结果。

表2:ILSVRC-2012验证集和测试集的错误率比较。斜体字表示其他人取得的最佳结果。带有星号*的模型被“预先训练”来对整个ImageNet 2011秋季发布进行分类。详见第6节。

表1总结了我们在ILSVRC-2010的结果。我们的网络实现了top-1和top-5test of37.5and17.05设置错误率。在ILSVRC-2010比赛中取得最佳性能是47.1和28.2与方法预测的平均值producedfrom六稀疏编码模式训练对不同功能[2]，并自那时以来最好的酒吧确立的结果是与方法预测的平均值45.7和25.7的两个分类--怀尔斯训练费舍尔向量(FVs)从两种计算密集采样功能[24].

我们还在ILSVRC-2012比赛中输入了我们的模型，并在表2中报告了我们的结果。由于ILSVRC-2012测试集标签不公开，因此我们无法报告我们尝试的所有模型的测试错误率。在本段的其余部分，我们交替使用验证和测试错误率，因为根据我们的经验，它们的差异不超过0.1%（见表2）。本文描述的CNN的前5位错误率为18.2%。对五个相似cnn的预测进行平均，误差率为16.4%。训练一个CNN，在最后一个池层上增加第六个卷积层，对整个ImageNet Fall 2011版本进行分类（15M图像，22K类别），然后在ILSVRC-2012上对其进行“微调”，错误率为16.6%。用上述五个CNN对2011年秋季发布的两个CNN的预测进行平均，错误率为15.3%。第二个最好的竞赛项目获得了26.2%的错误率，采用的方法是对几个分类器的预测进行平均，这些分类器是根据不同类型的密集采样特征计算的FVs进行训练的[7]。

最后，我们还报告了2009年秋季版imagenet的10184个类别和890万张图像的错误率。在这个数据集上，我们遵循文献中的惯例，使用一半的图像进行训练，一半用于测试。由于没有建立的测试集，我们的分割必然不同于以前作者使用的分割，但这不会明显影响结果。我们在该数据集上的top-1和top-5的错误率分别为67.4%和40.9%，这是由上面描述的net获得的，但在最后一个pooling层上增加了第六卷积层。在本数据集上发表的最佳结果分别为78.1%和60.9%[19]

6.1定性评估

图3显示了由网络的两个数据连接层学习的卷积核。网络已经学习了各种频率和方向选择内核，以及各种彩色斑点。请注意两个GPU显示的专门化，这是第3.5节中描述的受限连接的结果。GPU1上的内核基本上是颜色不可知的，而GPU2上的内核基本上是颜色特定的。这种专门化发生在每次运行期间，并且独立于任何特定的随机权重初始化（以GPU的重新编号为模）。

图4：（左）八个ILSVRC-2010测试图像和我们的模型认为最可能的五个标签。正确的标签写在每幅图像下面，分配给正确标签的概率也用红色条显示（如果恰好位于前5位）。（右）第一列中的五个ILSVRC-2010测试图像。其余的列显示了在最后一个隐藏层中生成特征向量的六个训练图像，这些特征向量与测试图像的特征向量之间的欧氏距离最小。

在图4的左面板中，我们通过计算8张测试图像的前5个预测，定性地评估了网络所学到的知识。请注意，即使是偏离中心的对象，如左上角的斜接，也可以被网络识别。大多数前五名的标签看起来都是合理的。例如，只有其他类型的猫被认为是合理的标签豹。在某些情况下（格栅、樱桃色），照片的预期焦点存在真正的模糊性。探索网络视觉知识的另一种方法是考虑图像在最后4096维隐藏层所引起的特征激活。如果两幅图像产生的特征激活向量具有很小的欧几里德分离，我们可以说，较高级别的神经网络认为它们是相似的。图4显示了来自测试集的五个图像和来自训练集的六个图像，根据这个度量，它们最相似。注意，在像素级别上，检索到的训练图像在L2中通常不接近第一列中的查询图像。例如，取回的狗和大象以各种姿势出现。我们在补充材料中给出了更多测试图像的结果。利用两个4096维实值向量之间的欧几里德距离计算相似度效率很低，但可以通过训练自动编码器将这些向量压缩成短二进制码来提高效率。这将产生一种比对原始像素应用自动编码器要好得多的图像检索方法[14]，这种方法不使用图像标签，因此有检索具有相似边缘模式的图像的趋势，无论它们在语义上是否相似。

我们的结果表明，使用纯监督学习，一个大型的深度卷积神经网络能够在一个具有高度挑战性的数据集上实现破纪录的结果。值得注意的是，如果去掉一个卷积层，我们的网络的性能就会下降。例如，删除任何中间层都会导致网络性能第一的损失约2%。因此，深度对于我们的成果是非常重要的。为了简化我们的实验，我们没有使用任何无监督的预训练，尽管我们期望它会有帮助，特别是当我们获得足够的计算能力来显著增加网络的规模，而没有获得相应的标签数据量的增加。到目前为止，随着我们把我们的网络做得更大，训练的时间更长，我们的结果有所改善，但我们仍然有许多数量级的工作要做，以匹配人类视觉系统的下时间路径。最终，我们希望在视频序列上使用非常大的深度卷积网络，其中时间结构提供了非常有用的信息，而这些信息在静态图像中是缺失的或不那么明显的。

参考文献

[1] R.M. Bell and Y . Koren. Lessons from the netflixprizechallenge. ACM SIGKDD Explorations Newsletter,
9(2):75–79, 2007.
[2] A. Berg, J. Deng, and L. Fei-Fei. Large scale visual recognition challenge 2010. www.image-
net.org/challenges. 2010.
[3] L. Breiman. Random forests. Machine learning, 45(1):5–32, 2001.
[4] D. Cire¸ san, U. Meier, and J. Schmidhuber. Multi-column deep neural networks for image classification.
Arxiv preprint arXiv:1202.2745, 2012.
[5] D.C. Cire¸ san, U. Meier, J. Masci, L.M. Gambardella, and J. Schmidhuber. High-performance neural
networks for visual object classification. Arxiv preprint arXiv:1102.0183, 2011.
[6] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet: A Large-Scale Hierarchical
Image Database. In CVPR09, 2009.
[7] J. Deng, A. Berg, S. Satheesh, H. Su, A. Khosla, and L. Fei-Fei. ILSVRC-2012, 2012. URL
http://www.image-net.org/challenges/LSVRC/2012/.
[8] L. Fei-Fei, R. Fergus, and P . Perona. Learning generative visual models from few training examples: An
incremental bayesian approach tested on 101 object categories. Computer Vision and Image Understand-
ing, 106(1):59–70, 2007.
[9] G. Griffin, A. Holub, and P. Perona. Caltech-256 object category dataset. Technical Report 7694, Cali-
fornia Institute of Technology, 2007. URL http://authors.library.caltech.edu/7694.
[10] G.E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R.R. Salakhutdinov. Improving neural net-
works by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, 2012.
[11] K. Jarrett, K. Kavukcuoglu, M. A. Ranzato, and Y . LeCun. What is the best multi-stage architecture for
object recognition? In International Conference on Computer Vision, pages 2146–2153. IEEE, 2009.
[12] A. Krizhevsky. Learning multiple layers of features from tiny images. Master’s thesis, Department of
Computer Science, University of Toronto, 2009.
[13] A. Krizhevsky. Convolutional deep belief networks on cifar-10. Unpublished manuscript, 2010.
[14] A. Krizhevsky and G.E. Hinton. Using very deep autoencoders for content-based image retrieval. In
ESANN, 2011.
[15] Y . Le Cun, B. Boser, J.S. Denker, D. Henderson, R.E. Howard, W. Hubbard, L.D. Jackel, et al. Hand-
written digit recognition with a back-propagation network. In Advances in neural information processing
systems, 1990.
[16] Y . LeCun, F.J. Huang, and L. Bottou. Learning methods for generic object recognition with invariance to
pose and lighting. In Computer Vision and Pattern Recognition, 2004. CVPR 2004. Proceedings of the
2004 IEEE Computer Society Conference on, volume 2, pages II–97. IEEE, 2004.
[17] Y . LeCun, K. Kavukcuoglu, and C. Farabet. Convolutional networks and applications in vision. In
Circuits and Systems (ISCAS), Proceedings of 2010 IEEE International Symposium on, pages 253–256.
IEEE, 2010.
[18] H. Lee, R. Grosse, R. Ranganath, and A.Y . Ng. Convolutional deep belief networks for scalable unsuper-
vised learning of hierarchical representations. InProceedings of the 26th Annual International Conference
on Machine Learning, pages 609–616. ACM, 2009.
[19] T. Mensink, J. V erbeek, F. Perronnin, and G. Csurka. Metric Learning for Large Scale Image Classifi-
cation: Generalizing to New Classes at Near-Zero Cost. In ECCV - European Conference on Computer
Vision, Florence, Italy, October 2012.
[20] V . Nair and G. E. Hinton. Rectified linear units improve restricted boltzmann machines. In Proc. 27th
International Conference on Machine Learning, 2010.
[21] N. Pinto, D.D. Cox, and J.J. DiCarlo. Why is real-world visual object recognition hard? PLoS computa-
tional biology, 4(1):e27, 2008.
[22] N. Pinto, D. Doukhan, J.J. DiCarlo, and D.D. Cox. A high-throughput screening approach to discovering
good forms of biologically inspired visual representation. PLoS computational biology, 5(11):e1000579,
2009.
[23] B.C. Russell, A. Torralba, K.P . Murphy, and W.T. Freeman. Labelme: a database and web-based tool for
image annotation. International journal of computer vision, 77(1):157–173, 2008.
[24] J. Sánchez and F. Perronnin. High-dimensional signature compression for large-scale image classification.
InComputer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on, pages 1665–1672. IEEE,
2011.
[25] P .Y . Simard, D. Steinkraus, and J.C. Platt. Best practices for convolutional neural networks applied to
visual document analysis. In Proceedings of the Seventh International Conference on Document Analysis
and Recognition, volume 2, pages 958–962, 2003.
[26] S.C. Turaga, J.F. Murray, V . Jain, F. Roth, M. Helmstaedter, K. Briggman, W. Denk, and H.S. Seung. Con-
volutional networks can learn to generate affinity graphs for image segmentation. Neural Computation,
22(2):511–538, 2010.

3结构

[3 Jiégòu]

3 structure

TJMtaotao

关注

1
点赞
踩
15

收藏

觉得还不错? 一键收藏
1
评论
深度学习卷积神经网络论文研读-AlexNet

AlexNet模型来源于论文-ImageNet Classification with Deep Convolutional Neural Networks，作者Alex Krizhevsky，Ilya Sutskever，Geoffrey E.Hinton. 摘要我们训练了一个大型的深度卷积神经网络，将ImageNet LSVRC-2010比赛中的120万幅...
复制链接

扫一扫