ImageNet Classification with Deep ConvolutionalNeural Networks(AlexNet总结大全附代码)


作者:Alex Krizhevsky
发表时间:2015
论文地址[ https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf]

一. 论文内容(已翻译)

1. Introduction

       ~~~~~~       目前的对象识别方法是机器学习方法的主要用途。 为了提高性能,我们可以收集更大的数据集,学习更强大的模型,并使用更好的技术来防止过度拟合。 直到最近,标记图像的数据集相对较小 —— 大约数万张图像。 使用此大小的数据集可以很好地解决简单的识别任务,特别是如果它们使用标签保留变换进行扩充。 例如,MNIST数字识别任务的当前最佳错误率(<0.3%)接近人类表现。但是在实际设置中的对象表现出相当大的可变性,因此要学会识别它们,有必要使用更大的 训练集。 事实上,小图像数据集的缺点已被广泛认可,但最近才有可能收集具有数百万图像的标记数据集。 新的更大的数据集包括LabelMe 和ImageNet,后者由数十万个完全分割的图像组成,ImageNet 包含超过22,000个标记的高分辨率图像,超过22,000个类别。
       ~~~~~~       要了解数百万图像中的数千个对象,我们需要一个具有大量学习能力的模型。 然而,对象识别任务的巨大复杂性意味着即使是像ImageNet这样大的数据集也无法解决这个问题,因此我们的模型需要有许多先验知识来弥补我们没有的所有数据。 卷积神经网络(CNN)构成了一类这样的模型。 它们的容量可以通过改变它们的深度和宽度来控制,并且它们也对图像的性质(即统计的平稳性和像素依赖性的位置)做出强有力且大多数正确的假设。因此,与具有相似性的标准前馈神经网络相比大小的层,CNN具有更少的连接和参数,因此它们更容易训练,而它们的理论上最佳性能可能仅略微恶化。
       ~~~~~~       本文的具体贡献如下:我们迄今为止在ILSVRC-2010和ILSVRC-2012竞赛中使用的ImageNet子集中训练了最大的卷积神经网络之一,并取得了迄今为止在这些数据集上的最佳结果。 我们编写了一个高度优化的2D卷积,GPU实现以及训练卷积神经网络中固有的所有其他操作,我们公开提供这些操作。 我们的网络包含许多新的和不寻常的功能,可以改善其性能并缩短其培训时间,详见第3节。我们的网络规模过大,即使有120万个标记的培训示例,我们也使用了几个防止过度拟合的有效技术,见第4节。我们的最终网络包含五个卷积层和三个完全连接层,这个深度似乎很重要:我们发现去除任何卷积层(每个卷层不超过1个) 模型参数的百分比)导致性能较差。
       ~~~~~~       最后,网络的大小主要受到当前gpu上可用内存的大小和我们愿意忍受的训练时间的大小的限制。我们的网络需要5到6天的时间来训练两个GTX 580 3GB gpu。我们所有的实验都表明,只要等待更快的gpu和更大的数据集可用,我们的结果就可以得到改善。

2 The Dataset

       ~~~~~~       ImageNet是一个包含超过1500万张高分辨率图像的数据集,属于大约22,000个类别。这些图片是从网上收集的,并由人进行标记。从2010年开始,作为Pascal视觉对象挑战赛的一部分,每年都会举办一场名为ImageNet大型视觉识别挑战赛(ILSVRC)的比赛。ILSVRC使用ImageNet的一个子集,在1000个类别中每个类别大约有1000幅图像。总共大约有120万张训练图像、50,000张验证图像和150,000张测试图像。

3 The Architecture

       ~~~~~~       图2总结了我们的网络架构。它包含八个学习层、五个卷积层和三个全连接层。下面,我们将描述我们的网络体系结构的一些新奇或不寻常的特性。第3.1-3.4节根据我们对其重要性的估计进行排序,其中最重要的部分。

3.1 ReLU Nonlinearity

       ~~~~~~       将神经元输出f建模为其输入x的函数的标准方法是 f ( x ) = t a n h ( x ) f(x)= tanh(x) fx=tanhx f ( x ) = 1 ( 1 + e − x ) − 1 f(x)=\frac{1}{(1 + e^{-x})^{-1}} fx=1+ex11。 就具有梯度下降的训练时间而言,这些饱和非线性比非饱和非线性 f ( x ) = m a x ( 0 , x ) f(x)= max(0,x) fx=max0x慢得多。 在Nair和Hinton 之后,我们将具有这种非线性的神经元称为整流线性单位(ReLUs)。 具有ReLU的深度卷积神经网络比具有 t a n h tanh tanh单位的等效物快几倍。 图1展示了这一点,图1显示了针对特定四层卷积网络在CIFAR-10数据集上达到25%训练误差所需的迭代次数。 该图表明,如果我们使用传统的饱和神经元模型,我们就无法用这种大型神经网络进行实验。
在这里插入图片描述
       ~~~~~~       我们不是第一个考虑CNN中传统神经元模型替代品的人。 例如,Jarrettet al,声称非线性 f ( x ) = ∣ t a n h ( x ) ∣ f(x)= | tanh(x)|

  • 1
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值