AlexNet
论文:《ImageNet Classification with Deep Convolutional Neural Networks》
一、意义
AlexNet首次在大规模图像数据集实现了深层卷积神经网络结构,点燃了深度学习这把火。其在ImageNet LSVRC-2012目标识别的top-5 error为15.3%,同期第二名仅为26.2%,碾压其他传统的hand-craft 特征方法,使得计算机视觉从业者从繁重的特征工程中解脱出来,转向思考能够从数据中自动提取需要的特征,做到数据驱动。得益于GPU计算性能的提升以及大规模数据集的出现,自此后每年的ImageNet LSVRC挑战赛都被深度学习模型霸占着榜首。
二、创新点
- 采用非线性激活函数ReLU,比饱和函数训练更快,而且保留非线性表达能力,可以训练更深层的网络
- 采用数据增强和Dropout防止过拟合,数据增强采用图像平移和翻转来生成更多的训练图像 ,Dropout降低了神经元之间互适应关系,被迫学习更为鲁棒的特征
- 采用GPU实现,采用并行化的GPU进行训练,在每个GPU中放置一半核,GPU间的通讯只在某些层进行,采用交叉验证,精确地调整通信量,直到它的计算量可接
三、网络结构
注:文中给的网络结构不是很清晰,可参见Netscope
上图中的输入是224×224,不过经过计算(224−11)/4=54.75并不是论文中的55×55,而使用227×227作为输入,则(227-11)/4=55
网络包含8个带权重的层;前5层是卷积层,剩下的3层是全连接层。最后一层全连接层的输出是1000维softmax的输入,softmax会产生1000类标签的分布网络包含8个带权重的层;前5层是卷积层,剩下的3层是全连接层。最后一层全连接层的输出是1000维softmax的输入,softmax会产生1000类标签的分布。
- 卷积层C1
该层的处理流程是:卷积-->ReLU-->池化-->归一化。
- 卷积,输入是227× 227,使用96个11×11×3的卷积核,得到的FeatureMap为55×55×96。
- ReLU,将卷积层输出的FeatureMap输入到ReLU函数中。
- 池化,使用3×3步长为2的池化单元(重叠池化,步长小于池化单元的宽度),输出为27×27× 96 (55-3)/2+1=27)
- 局部响应归一化,使用k =2,n = 5,a = 10-4,B=0.75进行局部归一化,输出的仍然为27× 27×96,输出分为两组,每组的大小为27 ×27 x48,各自在一组独立的GPU上进行运算
- 卷积层C2
该层的处理流程是:卷积-->ReLU-->池化-->归一化
- 卷积,输入是2组27×27×48。使用2组,每组128个尺寸为5×5×48的卷积核,并作了边缘填充padding=2,卷积的步长为1.则输出的FeatureMap为2组,每组的大小为27 x27x128.((27+2* 2-5)/1+1= 27)
- ReLU,将卷积层输出的FeatureMap输入到ReLU函数中
- 池化运算的尺寸为3×3,步长为2,池化后图像的尺寸为(27一3)/2+1=13,输出为13× 13×256
- 局部响应归一化,使用k =2,n =5,α = 10-4,B=0.75进行局部归一化,输出的仍然为13× 13 × 256,输出分为2组,每组的大小为13× 13x 128
- 卷积层C3
该层的处理流程是:卷积-->ReLU
- 卷积,输入是13× 13× 256,使用2组共384尺寸为3×3× 256的卷积核,做了边缘填充padding=1,卷积的步长为1.则翰出的FeatureMap为13×13x384
- ReLU,将卷积层输出的FeatureMap输入到ReLU函数中
- 卷积层C4
该层的处理流程是:卷积-->ReLU该层和C3类似。
- 卷积,输入是13× 13 ×384,分为两组,每组为13×13×192.使用2组,每组192个尺寸为3×3× 192的卷积核,做了边缘填充padding=1,卷积的步长为1.0输出的FeatureMap为13× 13 x384,分为两组,每组为13× 13× 192
- ReLU,将卷积层输出的FeatureMap输入到ReLU函数中
- 卷积层C5
该层处理流程为:卷积-->ReLU-->池化
- 卷积,输入为13× 13×384,分为两组,每组为13× 13× 192。使用2组,每组为128尺寸为3×3×192的卷积核,做了边缘填充padding=1,卷积阳的步长为1.0输出的FetureMap为13× 13x256
- ReLU,将卷积层输出的FeatureMap输入到ReLU函数中
- 池化,池化运算的尺寸为3×3,步长为2,池化后图像的尺寸为(13-3)/2+1=6,即池化后的输出为6×6× 256
- 全连接层FC6
该层的流程为:(卷积)全连接-->ReLU -->Dropout
- 卷积→全连接:输入为6 ×6×256该层有4096个卷积核,每个卷积核的大小为6×6 × 256。由于卷积核的尺寸刚好与待处理待征图(输入)的尺寸相同,即卷积核中的每个系数只与特征图(输入)尺寸的一个像素值相乘,——对应,因此,该层被称为全连接层。由于卷积核与特征固的尺寸相同,卷积运算后只有一个值,因此,卷积后的像素层尺寸为4096 ×1 x1,即有4096个神经元。
- ReLU,这4096个运算结果通过ReLU激活函数生成4096个值
- Dropout,抑制过拟合,随机的断开某些神经元的连接或者是不激活某些神经元
- 全连接层FC7
流程为:全连接-->ReLU-->Dropout。
- 全连接,输入为4096的向量
- ReLU,这4096个运算结果通过ReLU激活函数生成4096个值
- Dropout,抑制过拟合,随机的断开某些神经元的连接或者是不激活某些神经元
- 输出层
第七层输出的4096个数据与第八层的1000个神经元进行全连接,经过训练后输出1000个float型的值,这就是预测结果。
四、网络特点
- 数据增强
神经网络由于训统的参数多,表能能力强,所以需要比较多的数据量,不然很容易过找合。当训练数据有限时,可以通过一些变换从已有的训练数据集中生成一些新的数据,以快速地扩充训练数据。对于图像数据集来说,可以对图像进行一些形变操作:
·翻转
·随机裁剪
·平移,颜色光照的变换
·...
AlexNet中对数据做了以下操作:
- 随机裁剪,对256 × 256的图片进行随机裁剪到227× 227,然后进行水平翻转。
- 测试的时候,对左上、右上、左下、右下、中间分别做了5次裁剪,然后翻转,共10个裁剪,之后对结果求平均。
- 对RGB空间做PCA(主成分分析),然后对主成分做一个(0,0.1)的高斯扰动,也就是对颜色、光照作变换,结果使错误率又下降了1%。
- 层叠池化
AlexNet中使用的池化却是可重叠的,也就是说,在池化的时候,每次移动的步长小于池化的窗口长度。AlexNet的池化大小为3x3的正方形,每次池化移动步长为2,这样就会出现重叠。
- LRU
其中为kernel i 在x,y坐标的feature map,j为x,y位置的其他相邻kernel的feature map