【深度学习论文篇 01-1 】AlexNet论文翻译

最新推荐文章于 2023-07-26 16:12:43 发布

pythonxxoo

最新推荐文章于 2023-07-26 16:12:43 发布

阅读量1k

点赞数

分类专栏：计算机文章标签：计算机

本文链接：https://blog.csdn.net/pythonxxoo/article/details/123967607

版权

Python微信订餐小程序课程视频

https://edu.csdn.net/course/detail/36074

Python实战量化交易理财系统

https://edu.csdn.net/course/detail/35475目录

摘要
1 简介
2 数据集
3 网络结构
4 减小过拟合
- 4.1 数据增强
- 4.2 暂退法（Dropout）
5 学习中的细节
6 结果
- 6.1 定性分析
7 讨论
参考文献

**前言：**本文是我对照原论文逐字逐句翻译而来，英文水平有限，不影响阅读即可。翻译论文的确能很大程度加深我们对文章的理解，但太过耗时，不建议采用。我翻译的另一个目的就是想重拾英文，所以就硬着头皮啃了。本文只作翻译，总结及代码复现详见后续的姊妹篇。

Alex原论文链接：https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf

使用深度卷积神经网络进行ImageNet图像分类

作者：Alex Krizhevsky、Ilya Sutskever、Geoffrey E. Hinton 多伦多大学

回到顶部## 摘要

我们训练了一个大型的深度卷积神经网络，将ImageNet LSVRC-2010竞赛中的120万张高分辨率图像分类成1000种不同的类别。在测试数据上，我们取得了Top1 37.5%和Top-5 17.0%的错误率，这个结果已经远超以前的最高水平。该神经网络具有6千万个参数和650,000个神经元，它由5个卷积层和3个全连接层构成，其中部分卷积层后边跟有最大池化层，全连接层后边则是一个1000路的softmax分类器。为了使训练速度更快，我们使用了非饱和神经元和一种卷积操作的非常高效的GPU实现。为了减少全连接层中的过拟合，我们使用了一个最近开发的被称作“暂退法”的正则化方法，该方法已被证明十分有效。在IOLSVRC-2012竞赛中，我们正式提出这个模型的一种变体，并以15.3%的top-5测试误差率赢得榜首，相比而言，第二好的参赛队伍则只取得26.2%的成绩。

回到顶部## 1 简介

当前的目标识别方法在机器学习方法中有着非常重要的应用。为了提高他们的性能，我们可以收集更大的数据集，学习更强大的模型，以及使用更好的避免过拟合的技术。屹今为止，含标注的图像数据集相对还是比较小的——近数万张图像（例如，NORB [16]，Caltech-101/256 [8,9]，和CIFAR-10/100 [12]）。简单的识别任务使用这种规模的数据集可以取得相当不错的结果，特别是当他们使用保留标签的转换进行增强时。例如，在MNIST手写数字识别任务中，当前最好的错误率达到了0.3%以内，接近了人类的识别水平 [4]。但是现实数据集中的目标表现出相当大的不确定性，因此使用更大的训练集去学习识别他们是必要的。的确，小型图像数据集的缺点已经被广泛地认识到（比如Pinto等人 [21]），但这仅仅是在最近收集带有数百万图像的标记数据集时才变得重要起来。新的大型数据集包括由成千上万张全分割图像组成的LabelMe [23]，以及由包含超过22000个类别的1500多万张带标签的高分辨率图像组成的ImageNet [6]。

要从数百万张图像里边学习数千个目标，我们需要一个有很强学习能力的模型。然而，目标识别任务极大的复杂度意味着这个问题即便通过一个像ImageNet一样大的数据集都无法被明确描述，因此我们的模型也应当具有大量的先验知识，来补偿所有我们所没有的数据。卷积神经网络（CNNs）构造了一个此类的模型 [16, 11, 13, 18, 15, 22, 26]。他们的容量可以通过改变其深度和广度来控制，并且他们也构造了强大的近乎正确的关于图像本质的假设（即统计数据的平稳性和像素依赖的局部性）。因此，相比标准的具有相似大小的层的前馈神经网络，CNNs具有更少的连接和参数，并且也更易于训练，同时他们理论上的最佳性能可能只是略差而已。

尽管CNNs有着出色的性能，以及相对有效的局部结构，但他们在大规模高分辨图像的应用上依然是代价及其昂贵的。幸运的是，当前的GPUs与高度优化的2D卷积实现相结合，足以促进有趣的大型CNNs的训练，并且最近的诸如ImageNet的数据集，含有足够多带标签的样本去训练这种没有太大过拟合的模型。

本文具体的贡献如下：我们在ILSVRC-2010和ILSVRC-2012竞赛中所使用的ImageNet子集上训练了屹今为止最大的卷积神经网络之一，并取得了屹今为止在这些数据集上报告的最佳结果。我们编写了一个高度优化的2D卷积GPU实现以及训练卷积神经网络所有固有的其他操作，这些我们公开提供（http://code.google.com/p/cuda-convnet）。我们的网络包含了许多新的且不寻常的特征，可以提高网络性能和降低训练时间，详见第3节。我们网络的规模使得过拟合成了一个重要的问题，即便这是在拥有120万已标注的训练样本的情况下，因此我们使用了数种有效的技术来避免过拟合，这部分将在第4节详细介绍。最终的网络包含5个卷积层和3个全连接层，并且这个深度似乎很重要：我们发现移除任何卷积层（每一个包含不超过1%的模型参数）都会导致性能变差。

最后，网络大小主要受限于当前GPUs可用内存的数量和我们能容忍的训练时间的多少。我们的网络在两个GTX 580 3GB的GPU上花费了5-6天时间训练。我们所有的实验都表明，我们的结果仅仅通过等待更快的GPU和更大的数据集就能变得可用来被改进。

回到顶部## 2 数据集

ImageNet是一个包含大约22000类别的超过1500万张的带标签的高分辨率图像数据集。其图像收集自Web，并且使用亚马逊的M

最低0.47元/天解锁文章

pythonxxoo

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【深度学习论文篇 01-1 】AlexNet论文翻译

Python微信订餐小程序课程视频https://edu.csdn.net/course/detail/36074Python实战量化交易理财系统https://edu.csdn.net/course/detail/35475目录摘要1 简介2 数据集3 网络结构3.1 ReLU非线性3.2 多GPU训练3.3 LRN局部响应归一化3.4 重叠池化3.5 整体结构4 减小过拟合4.1 数据增强4.2 暂退法（Dropout）5 学习中的细节6 结果6.1
复制链接

扫一扫