AlexNet网络详解

本文解析了AlexNet在ImageNet竞赛中的突破,介绍了其使用ReLU、数据增强和Dropout防止过拟合的创新,详细解读了8层网络结构,包括卷积层和全连接层。重点讨论了数据增强策略和层叠池化技术,展示了深度学习在计算机视觉中的重要地位。
摘要由CSDN通过智能技术生成

AlexNet

论文:《ImageNet Classification with Deep Convolutional Neural Networks

一、意义

        AlexNet首次在大规模图像数据集实现了深层卷积神经网络结构,点燃了深度学习这把火。其在ImageNet LSVRC-2012目标识别的top-5 error为15.3%,同期第二名仅为26.2%,碾压其他传统的hand-craft 特征方法,使得计算机视觉从业者从繁重的特征工程中解脱出来,转向思考能够从数据中自动提取需要的特征,做到数据驱动。得益于GPU计算性能的提升以及大规模数据集的出现,自此后每年的ImageNet LSVRC挑战赛都被深度学习模型霸占着榜首。

二、创新点

  1. 采用非线性激活函数ReLU,比饱和函数训练更快,而且保留非线性表达能力,可以训练更深层的网络
  2. 采用数据增强和Dropout防止过拟合,数据增强采用图像平移和翻转来生成更多的训练图像 ,Dropout降低了神经元之间互适应关系,被迫学习更为鲁棒的特征
  3. 采用GPU实现,采用并行化的GPU进行训练,在每个GPU中放置一半核,GPU间的通讯只在某些层进行,采用交叉验证,精确地调整通信量,直到它的计算量可接

三、网络结构 

 

注:文中给的网络结构不是很清晰,可参见Netscope

上图中的输入是224×224,不过经过计算(224−11)/4=54.75并不是论文中的55×55,而使用227×227作为输入,则(227-11)/4=55

网络包含8个带权重的层;前5层是卷积层,剩下的3层是全连接层。最后一层全连接层的输出是1000维softmax的输入,softmax会产生1000类标签的分布网络包含8个带权重的层;前5层是卷积层,剩下的3层是全连接层。最后一层全连接层的输出是1000维softmax的输入,softmax会产生1000类标签的分布。

  • 卷积层C1

该层的处理流程是:卷积-->ReLU-->池化-->归一化。

  1. 卷积,输入是227× 227,使用96个11×11×3的卷积核,得到的FeatureMap为55×55×96。
  2. ReLU,将卷积层输出的FeatureMap输入到ReLU函数中。
  3. 池化,使用3×3步长为2的池化单元(重叠池化,步长小于池化单元的宽度),输出为27×27× 96 (55-3)/2+1=27)
  4. 局部响应归一化,使用k =2,n = 5,a = 10-4,B=0.75进行局部归一化,输出的仍然为27× 27×96,输出分为两组,每组的大小为27 ×27 x48,各自在一组独立的GPU上进行运算
  • 卷积层C2

该层的处理流程是:卷积-->ReLU-->池化-->归一化

  1. 卷积,输入是2组27×27×48。使用2组,每组128个尺寸为5×5×48的卷积核,并作了边缘填充padding=2,卷积的步长为1.则输出的FeatureMap为2组,每组的大小为27 x27x128.((27+2* 2-5)/1+1= 27)
  1. ReLU,将卷积层输出的FeatureMap输入到ReLU函数中
  1. 池化运算的尺寸为3×3,步长为2,池化后图像的尺寸为(27一3)/2+1=13,输出为13× 13×256
  2. 局部响应归一化,使用k =2,n =5,α = 10-4,B=0.75进行局部归一化,输出的仍然为13× 13 × 256,输出分为2组,每组的大小为13× 13x 128
  • 卷积层C3

该层的处理流程是:卷积-->ReLU

  1. 卷积,输入是13× 13× 256,使用2组共384尺寸为3×3× 256的卷积核,做了边缘填充padding=1,卷积的步长为1.则翰出的FeatureMap为13×13x384
  1. ReLU,将卷积层输出的FeatureMap输入到ReLU函数中
  • 卷积层C4

该层的处理流程是:卷积-->ReLU该层和C3类似。

  1. 卷积,输入是13× 13 ×384,分为两组,每组为13×13×192.使用2组,每组192个尺寸为3×3× 192的卷积核,做了边缘填充padding=1,卷积的步长为1.0输出的FeatureMap为13× 13 x384,分为两组,每组为13× 13× 192
  1. ReLU,将卷积层输出的FeatureMap输入到ReLU函数中
  • 卷积层C5

该层处理流程为:卷积-->ReLU-->池化

  1. 卷积,输入为13× 13×384,分为两组,每组为13× 13× 192。使用2组,每组为128尺寸为3×3×192的卷积核,做了边缘填充padding=1,卷积阳的步长为1.0输出的FetureMap为13× 13x256
  1. ReLU,将卷积层输出的FeatureMap输入到ReLU函数中
  1. 池化,池化运算的尺寸为3×3,步长为2,池化后图像的尺寸为(13-3)/2+1=6,即池化后的输出为6×6× 256
  • 全连接层FC6

该层的流程为:(卷积)全连接-->ReLU -->Dropout

  1. 卷积→全连接:输入为6 ×6×256该层有4096个卷积核,每个卷积核的大小为6×6 × 256。由于卷积核的尺寸刚好与待处理待征图(输入)的尺寸相同,即卷积核中的每个系数只与特征图(输入)尺寸的一个像素值相乘,——对应,因此,该层被称为全连接层。由于卷积核与特征固的尺寸相同,卷积运算后只有一个值,因此,卷积后的像素层尺寸为4096 ×1 x1,即有4096个神经元。
  1. ReLU,这4096个运算结果通过ReLU激活函数生成4096个值
  2. Dropout,抑制过拟合,随机的断开某些神经元的连接或者是不激活某些神经元
  • 全连接层FC7

流程为:全连接-->ReLU-->Dropout。

  1. 全连接,输入为4096的向量
  2. ReLU,这4096个运算结果通过ReLU激活函数生成4096个值
  3. Dropout,抑制过拟合,随机的断开某些神经元的连接或者是不激活某些神经元
  • 输出层

第七层输出的4096个数据与第八层的1000个神经元进行全连接,经过训练后输出1000个float型的值,这就是预测结果。

四、网络特点 

  • 数据增强

神经网络由于训统的参数多,表能能力强,所以需要比较多的数据量,不然很容易过找合。当训练数据有限时,可以通过一些变换从已有的训练数据集中生成一些新的数据,以快速地扩充训练数据。对于图像数据集来说,可以对图像进行一些形变操作:

·翻转

·随机裁剪

·平移,颜色光照的变换

·...

AlexNet中对数据做了以下操作:

  1. 随机裁剪,对256 × 256的图片进行随机裁剪到227× 227,然后进行水平翻转。
  2. 测试的时候,对左上、右上、左下、右下、中间分别做了5次裁剪,然后翻转,共10个裁剪,之后对结果求平均。
  3. 对RGB空间做PCA(主成分分析),然后对主成分做一个(0,0.1)的高斯扰动,也就是对颜色、光照作变换,结果使错误率又下降了1%。
  • 层叠池化

AlexNet中使用的池化却是可重叠的,也就是说,在池化的时候,每次移动的步长小于池化的窗口长度。AlexNet的池化大小为3x3的正方形,每次池化移动步长为2,这样就会出现重叠。

  • LRU

其中为kernel i 在x,y坐标的feature map,j为x,y位置的其他相邻kernel的feature map

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值