简介
AlexNet是2012年ImageNet图像数据集分类深度网络冠军模型,且这比前一年的冠军水平要好得多,伴随着它而发表的论文是《ImageNet Classification with Deep Convolutional Neural Networks 》,在12年这是一个巨大的深层卷积网络,网络具有6000万个参数和65万个神经元,在当时算力有限的条件下,使用GPU将网络分成两部分进行并行计算
网络结构
上图是AlexNet网络模型,包含八层权重,有五个卷积层和两个全连接层和1000维的softmax输出层,第一、二和五个卷积层后使用池化层,池化层中的参数是静态属性,不需要优化。网络中采用的非线性激活函数为ReLU,最大化的是多项逻辑回归目标。
图像在网络中的变化
网络的输入图片大小为2272273,论文中使用的是2242243,经过推导发现,2272273更合适。第一层为卷积层,使用96个11113的卷积核,步长大小为4,经卷积后输出的feature map为5555,一个卷积核对应一个feature map,共有96个feature map,然后进33大小,步长为2的池化操作,feature map大小下采样为2727。
然后输入到第二个卷积层,第二个卷积层使用same卷积,256个55的卷积核,步长为1,卷积后尺寸依旧是2727,通道数变为256,紧跟33,步长为2的池化操作,输出为256个1313的feature map。
第三、四个卷积层后无池化层,第三个卷积层使用384个33大小的卷积核做same卷积,第四层和第三层操作一样。第五层使用256个33大小的卷积核做same卷积,后跟33,步长为2的池化操作,输出为6*6大小的256个feature map。然后将其展开为9216个单元,输入到全连接层,前两个全连接层都有4096神经元,最后一层做1000分类的softmax。
论文创新点
(1)提出一个更大更深的网络结构模型。
(2)首次使用非线性修正单元ReLU函数代替sigmoid做为神经网络的激活函数。
(3)提出dropout方法,有效避免过拟合。
(4)将网络分成两部分在GPU上做并行运算,减少训练时间。
(5)提出局部响应归一化方法(后证明用处不大)
思考
这篇论文是2012年发出,他提出的网络结构标志着深度学习大发展,以后这几年的很多结构都借鉴了AlexNet的思想,而且他提出的dropout方法和GPU并行计算现在依旧在使用。此外,从网络结构可总结出CNN的三大特点:局部感受野,即每个神经元仅与它的输入神经元的一部分区域连接,这块区域称为感受野;权值共享,即卷积核是共享的,在一次的卷积过程中权重不变;下采样,即池化操作,可减少参数,防止过拟合。因此,仔细阅读并理解这篇论文很有必要。