ImageNet Classification with Deep ConvolutionalNeural Networks
作者:Alex Krizhevsky
发表时间:2015
论文地址[ https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf]
一. 论文内容(已翻译)
1. Introduction
~~~~~~ 目前的对象识别方法是机器学习方法的主要用途。 为了提高性能,我们可以收集更大的数据集,学习更强大的模型,并使用更好的技术来防止过度拟合。 直到最近,标记图像的数据集相对较小 —— 大约数万张图像。 使用此大小的数据集可以很好地解决简单的识别任务,特别是如果它们使用标签保留变换进行扩充。 例如,MNIST数字识别任务的当前最佳错误率(<0.3%)接近人类表现。但是在实际设置中的对象表现出相当大的可变性,因此要学会识别它们,有必要使用更大的 训练集。 事实上,小图像数据集的缺点已被广泛认可,但最近才有可能收集具有数百万图像的标记数据集。 新的更大的数据集包括LabelMe 和ImageNet,后者由数十万个完全分割的图像组成,ImageNet 包含超过22,000个标记的高分辨率图像,超过22,000个类别。
~~~~~~ 要了解数百万图像中的数千个对象,我们需要一个具有大量学习能力的模型。 然而,对象识别任务的巨大复杂性意味着即使是像ImageNet这样大的数据集也无法解决这个问题,因此我们的模型需要有许多先验知识来弥补我们没有的所有数据。 卷积神经网络(CNN)构成了一类这样的模型。 它们的容量可以通过改变它们的深度和宽度来控制,并且它们也对图像的性质(即统计的平稳性和像素依赖性的位置)做出强有力且大多数正确的假设。因此,与具有相似性的标准前馈神经网络相比大小的层,CNN具有更少的连接和参数,因此它们更容易训练,而它们的理论上最佳性能可能仅略微恶化。
~~~~~~ 本文的具体贡献如下:我们迄今为止在ILSVRC-2010和ILSVRC-2012竞赛中使用的ImageNet子集中训练了最大的卷积神经网络之一,并取得了迄今为止在这些数据集上的最佳结果。 我们编写了一个高度优化的2D卷积,GPU实现以及训练卷积神经网络中固有的所有其他操作,我们公开提供这些操作。 我们的网络包含许多新的和不寻常的功能,可以改善其性能并缩短其培训时间,详见第3节。我们的网络规模过大,即使有120万个标记的培训示例,我们也使用了几个防止过度拟合的有效技术,见第4节。我们的最终网络包含五个卷积层和三个完全连接层,这个深度似乎很重要:我们发现去除任何卷积层(每个卷层不超过1个) 模型参数的百分比)导致性能较差。
~~~~~~ 最后,网络的大小主要受到当前gpu上可用内存的大小和我们愿意忍受的训练时间的大小的限制。我们的网络需要5到6天的时间来训练两个GTX 580 3GB gpu。我们所有的实验都表明,只要等待更快的gpu和更大的数据集可用,我们的结果就可以得到改善。
2 The Dataset
~~~~~~ ImageNet是一个包含超过1500万张高分辨率图像的数据集,属于大约22,000个类别。这些图片是从网上收集的,并由人进行标记。从2010年开始,作为Pascal视觉对象挑战赛的一部分,每年都会举办一场名为ImageNet大型视觉识别挑战赛(ILSVRC)的比赛。ILSVRC使用ImageNet的一个子集,在1000个类别中每个类别大约有1000幅图像。总共大约有120万张训练图像、50,000张验证图像和150,000张测试图像。
3 The Architecture
~~~~~~ 图2总结了我们的网络架构。它包含八个学习层、五个卷积层和三个全连接层。下面,我们将描述我们的网络体系结构的一些新奇或不寻常的特性。第3.1-3.4节根据我们对其重要性的估计进行排序,其中最重要的部分。
3.1 ReLU Nonlinearity
~~~~~~ 将神经元输出f建模为其输入x的函数的标准方法是 f ( x ) = t a n h ( x ) f(x)= tanh(x) f(x)=tanh(x) 或 f ( x ) = 1 ( 1 + e − x ) − 1 f(x)=\frac{1}{(1 + e^{-x})^{-1}} f(x)=(1+e−x)−11。 就具有梯度下降的训练时间而言,这些饱和非线性比非饱和非线性 f ( x ) = m a x ( 0 , x ) f(x)= max(0,x) f(x)=max(0,x)慢得多。 在Nair和Hinton 之后,我们将具有这种非线性的神经元称为整流线性单位(ReLUs)。 具有ReLU的深度卷积神经网络比具有 t a n h tanh tanh单位的等效物快几倍。 图1展示了这一点,图1显示了针对特定四层卷积网络在CIFAR-10数据集上达到25%训练误差所需的迭代次数。 该图表明,如果我们使用传统的饱和神经元模型,我们就无法用这种大型神经网络进行实验。
~~~~~~ 我们不是第一个考虑CNN中传统神经元模型替代品的人。 例如,Jarrettet al,声称非线性 f ( x ) = ∣ t a n h ( x ) ∣ f(x)= | tanh(x)|