abstract:任务是将1.2百万张图片分成1000类。其神经网络包含五个卷积层、五个最大池化层,三个全连接层和最后的softmax层。利用dropout防止过拟合。
introduction:背景:新的带标签大数据集陆续出现;使用cnn代替全连接层,减少了连接和参数;GPU性能提升;
contribution:用了最大的卷积神经网络;高度优化GPU的2D卷积实例;特别的新特征提现减时;dropout;
重点1:结构详解:
ReLU:
Rectified Linear Units。non-saturate model(当x取正无穷或负无穷时,y为正无穷),比saturate model训练快,错误率低
Local Response Normalization:
虽然ReLU不需要输入归一化,但是使用了LRN有利于提高网络的泛化性能。
LRN的作用就是,对位置(x, y)处的像素计算其与几个相邻的kernel maps的像素值的和,并除以这个和来归一化。kernel maps的顺序可以是任意的,在训练开始前确定顺序即可。其中的k, N, α, β都是超参数,论文中给出了所用的值为k=2, N=5, α=10e-4, β=0.75。在AlexNet中,LRN层位于ReLU之后。
池化:
置步长为2,卷积核长3.减少了top-1的错误率,降低过拟合率。
重点2:处理过拟合
过拟合原因:参数太多(6千万),
解决方法:
数据增强
对抗过拟合最简单有效的办法就是扩大训练集的大小,AlexNet中使用了两种增加训练集大小的方式。
Image translations and horizontal reflections. 对原始的256x256大小的图片随机裁剪为224x224大小,并进行随机翻转,这两种操作相当于把训练集扩大了32x32x2=2048倍。在测试时,AlexNet把输入图片与其水平翻转在四个角处与正中心共五个地方各裁剪下224x224大小的子图,即共裁剪出10个子图,均送入AlexNet中,并把10个softmax输出求平均。如果没有这些操作,AlexNet将出现严重的过拟合,使网络的深度不能达到这么深。
Altering the intensities of the RGB channels. AlexNet对RGB通道使用了PCA(主成分分析),对每个训练图片的每个像素,提取出RGB三个通道的特征向量与特征值,对每个特征值乘以一个α,α是一个均值0.1方差服从高斯分布的随机变量。
Dropout
给每个神经元添加一个probability,神经元输出的值有可能被放弃,即输出零。将这个情况视为dropout了。AlexNet在头两个全连接层的使用了dropout,这样每次选择的神经元输出都不同,使学到的特征不依赖于某些神经元。使用后收敛速度降低了,解决了过拟合现象。
超参数设置:
batch size:128
momentum梯度下降:0.9
weight decay权重衰减:0.0005(对于模型学习,这个值小一点好,它虽然正则化效果不好,但能减少模型训练错误)
bias:第2、4、5层、全连接层都设为1。(通过给ReLU一个正输入,加速了早期的学习)保留层的bias设为0;
lr:全部层的lr初始化为0.01,当在训练结束前共减小3次,每次减小都出现在错误率停止减少的时候,每次减小都是把学习速率除以10
weight初始化:按高斯分布,均值为0,标准差为0.01
以下为网络结构图:from https://blog.csdn.net/guoyunfei20/article/details/78122504