AlexNet
研究意义
- 开启深度卷积神经网络在计算机视觉领域的应用。
2012年以前:特征提取——特征筛选——输入分类器
2012年以后:特征工程和分类集于一体 - 加速计算机视觉的应用落地
研究成果
在ILSVRC-2012以超出第二名10.9个百分点获得冠军
其中:
SIFT+FVs:ILSVRC-2012分类第二名
1CNN:训练一个AlexNet
5CNN:训练五个AlexNet取平均值
1CNN*:在最后一个池化层之后,额外添加第六个卷积层,并使用ImageNet 2011(秋)数据集进行预训练
7CNNs*:两个预训练微调,5CNNs取平均值
创新点
- ReLU激活函数
注:实线:ReLU、虚线:tanh
图片表明:ReLU激活函数能够使得模型训练的更快
2.多GPU训练
3.LRN(VGG已经证明这个方法无效)
优点:有助于AlexNet泛化能力的提升。
LRN:细胞分化变成不同的时候,它会对周围的细胞产生抑制信号,阻止它们向相同方向分布,最种表现细胞命运不同
公式其实就是假设旁边有一个非常大的数,那么这个数肯定对预测的值有一个非常大的影响
4.Overlapping Pooling
之前的大部分都是卷积核的大小=步进的距离,论文提到的是:卷积核的大小>步进距离。例如:卷积核:3,步进距离:2
网络结构
论文中提到:C2、C4、C5仅仅当前所在的GPU相连;LRN只在C1、C2中;Max-pooling存在与C5卷积
其中:
C1:conv1-ReLU-LRN-pool
C2:conv2-ReLU-LRN-pool(这里的输入其实还是27*27,27由:224卷积-变成55-max pooling变成27)
C3:conv3-ReLU
C4:conv4-ReLU
C5:conv5-ReLU-Pool
训练技巧
1.drop out(有效防止过拟合)
训练和测试两个阶段的数据尺度变化,测试时神经元输出值乘以P
2.数据增强
针对位置进行数据增强
训练:改成256256——裁剪224——水平翻转
((256-224)x 2 = 1024)
测试:改成256256——剪出5个224*224——水平翻转
针对颜色增强
通过PCA方法修改RGB通道的像素值,实现扰动,但是效果有限
可视化
相似图片的第二个全连接层输出特征向量的欧式距离相近