该文为deep learning领域用卷积网络做图像识别的里程碑式的成果。当今很多利用深度卷积网络做图像特征提取和识别的模型大多参考该文。paper下载
1 数据预处理
原始图片→缩小成短边(shorter side)长度为256的图片→从图像中心分割出256*256的图片。
2 训练技巧
(1) 神经元的激活函数用Rectified Liner Units(ReLUs),即:,而不是传统的或。大大提高了训练速度(Figure 1所示)。
(2) 局部响应正则化(Local Response Normalization):
其中,为在x,y处计算出的神经元激活函数值,其中,N表示这一层所有核的个数。整个和式是在相同位置,n个相邻的核上计算得到的。
(3) 有交叠的池化:池化单元为3*3,步长为2。
3 减少过拟合策略
(1) 随机从256*256的图片中分割出224*224的图片并求它的水平对称变换从而得到3张不同的224*224的图片 (224*224*3)作为输入数据。
(2) 在RGB像素集上使用PCA,再加上一个服从均值为0标注差为0.1的正态分布的随机变量。即针对RGB像素点,加上
其中和是RGB像素值协方差矩阵的特征向量和特征值。
(3) Dropout:训练过程中以0.5的概率忽略隐层节点。
4 网络结构
5个卷积层,3个全连层。在两个GPU上训练(论文中图片没有画全)。
第一层:96个11*11*3的卷积核(每个GPU上48个),后跟局部相应正则化和池化处理;
第二层:256个5*5*48的卷积核(每个GPU上128个),只卷积所在同一个GPU的前一层的48个特征映射层,后跟局部相应正则化和池化处理;
第三层:384个3*3*256的卷积核(每个GPU上192个),卷积前一层的两个GPU上的所有256个特征映射层;
第四层:384个3*3*192的卷积核(每个GPU上192个),只卷积所在同一个GPU的前一层的192个特征映射层;
第五层:256个3*3*192的卷积核(每个GPU上128个),只卷积所在同一个GPU的前一层的192个特征映射层,后跟池化处理。
5 训练过程
采用随机梯度下降法训练,每一个batch有128个样本。
表示冲量,值为0.9;是学习率,值为0.01;如果在某个学习率下,模型在验证集上的错误率已无法下降,那么就将学习率除以10。
网络中的所有的权值初始值为一个服从均值为0,标准差为0.01的正态分布的随机数。第二、四、五层的卷积层的偏置初值为1,而其他层神经元的偏置初值均为0。