ImageNet Classification with Deep Convolutional Neural Networks - AlexNet 2012文章解析和代码

本文详细解析2012年NIPS论文《ImageNet Classification with Deep Convolutional Neural Networks》中提出的AlexNet模型,包括网络结构、参数设置、ReLU激活、数据增强、双GPU训练、局部响应归一化(LRN)、重叠池化和Dropout等关键点,并提及Keras版本的实现。
摘要由CSDN通过智能技术生成

NIPS 2012 《ImageNet Classification with Deep Convolutional Neural Networks》
Alex Krizhevsky | Ilya Sutskever | Geoffrey E. Hinton
PaperLink

基本参数

input: 224×224大小的图片,3通道
conv1: 11×11大小的卷积核96个,每个GPU上48个。
max-pooling: 2×2的核。
conv2: 5×5卷积核256个,每个GPU上128个。
max-pooling: 2×2的核。
conv3: 与上一层是全连接,3*3的卷积核384个。分到两个GPU上个192个。
conv4: 3×3的卷积核384个,两个GPU各192个。该层与上一层连接没有经过pooling层。
conv5: 3×3的卷积核256个,两个GPU上个128个。
max-pooling: 2×2的核。
FullyConnected1: 4096维,将第五层max-pooling的输出连接成为一个一维向量,作为该层的输入。
FullyConnected2: 4096维
Softmax: 输出为1000,输出的每一维都是图片属于该类别的概率。

一些操作

ReLU
使用非线性饱和函数ReLU作为神经元激活函数 f ( x ) = m a x ( 0 , x ) f(x)=max(0,x) f(x)=max(0,x)

数据增强

  • 随机抓取224x224的小块,以及它的水平翻转:
    从256x256的图片中抓取224x224的小块,并用这抓取的小块来训练网络;
    使训练集增加了2048倍,但是样本间有高度依赖性;
    不使用这个方案时,出现大量的过拟合;
    测试阶段时,抓取5个224x224的小块以及它们的水平翻转(共10个)来做预测,并对这10个小块的softmax预测值做平均。
  • 改变训练图像中的RGB通道的强度:
    遍历ImageNet训练集,在RGB像素值的集合上使用PCA
    使已知的主成分加倍
    比例为对应特征值乘以一个随机变量
    随机变量服从均值为0,标准差为0.1的高斯分布

Dual GPU
使用了两个NVIDIA GTX 580 3GB GPU
每个GPU有一半的kernel,且只在一些特定的层,GPU之间才进行通信:

  • 第2、4、5卷积层的输入只连接了位于同一GPU的前一层的kernel;
  • 第3层连接了第2层所有kernel(两个GPU的);
  • 全连接层是与前一层所有神经元连接的(两个GPU的)。

LRN(Local Response Normalization)局部响应归一化
b x , y i = a x , y i / ( k + α ∑ j = max ⁡ ( 0 , i − n / 2 )

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 2012年,使用深度卷积神经网络进行图像分类的研究在ImageNet比赛中取得了重大突破。这项研究表明,深度学习可以在计算机视觉领域中取得非常出色的表现,并且在图像分类任务中超越了传统的机器学习方法。这项研究的成功为深度学习在计算机视觉领域中的应用奠定了基础,并且在之后的研究中得到了广泛的应用。 ### 回答2: 2012年,由谷歌的Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton等人共同合作完成的论文《ImageNet分类中深度卷积神经网络的应用》(2012 imagenet classification with deep convolutional neural networks)被认为是深度学习领域的重要里程碑和突破点,因为他们使用深度卷积神经网络Convolutional Neural Networks,简称CNN)成功地解决了一个图像分类问题。 在这篇论文中,研究团队使用了一组包含60万张图像和1000个类别的图像分类任务(这个数据集被称为ImageNet Large Scale Visual Recognition Challenge 2012)。他们提出的深度卷积神经网络模型叫做AlexNet,由5个卷积层和3个全连接层构成。 AlexNet在这个任务上取得了很好的表现,取得了15.4%的Top-5误差率,这意味着对于任何一张图像,模型在最高置信度的5个类别中错误地分类的图像的比例不超过15.4%。这个结果比当时的第二名高出了近10个百分点。 为什么这篇论文如此重要呢?这篇论文通过引入深度卷积神经网络的架构,降低了模型的误差率,它的表现在当时的机器学习领域中引起了轰动。深度卷积神经网络现在已经成为图像分类、目标检测、人脸识别等相关任务中最普遍的方法之一。AlexNet的成功不仅对深度学习和神经网络领域的发展有影响,同时也推动了计算机视觉的研究进展,使得图像识别在现实生活中的应用更加广泛和准确。 总的来说,2012 imagenet classification with deep convolutional neural networks这篇论文开辟了卷积神经网络在图像处理领域的先河,将其成功应用于图像分类等诸多领域,推动了人工智能与计算机视觉的发展。 ### 回答3: 2012Imagenet分类竞赛中,谷歌的研究团队使用深层卷积神经网络(DCNN)结构,实现在1000类物体的大规模图像分类任务中的显著性能提高。 DCNN是一种深度学习方法,由许多层神经元组成,其中卷积层用于查找输入图像的局部特征,汇聚层则对输出进行子采样处理,以降低输出维度。DCNN模型在训练过程中,通过大规模的图像数据集来自动学习输入图像中的特征,并且在测试时能够很好地推广到未见过的图像数据上,因此在视觉识别领域中有广泛的应用。 在Imagenet分类竞赛中,谷歌的DCNN模型(称为AlexNet)结合了多种技术,包括ReLU激活函数、局部响应归一化(LRN)和Dropout等,并使用GPU来提升计算速度。AlexNetImagenet数据集上的分类错误率从之前的26%降至15.3%,大幅超越了其他竞争对手的水平,并成为了改变计算机视觉领域的重要里程碑。 该结果引发了计算机视觉领域的研究热潮,深度学习也成为了针对图像和视频数据的模型训练标准。今天,DCNN模型已成为图像和视频识别领域的重要技术,被广泛应用于社交媒体、安防、智能交通等领域,成为人工智能技术的重要组成部分。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值