AlexNet
一、总述
加拿大多伦多大学第一作者Alex Krizhevsky(Hiton大神的学生)的论文。近代计算机视觉里程碑,ILSVRC2012分类竞赛冠军,ImageNet竞赛上第一次基于卷积神经网络模型得到冠军,top-1和top-5分别是37.5%和15.3%,比第二名top-5 error 降低10.9个百分点。AlexNet相对于LeNet,网络更深,有8层网络,使用11*11的卷积核或滤波器,有6000万个参数,65万个神经元。同时第一次引入ReLu激活层,在全连接层中引入了Dropout层和Data Augmentation防止过拟合。网络结构复杂,因计算机量大,GPU计算力不够,所以使用2个GPU。
论文:Imagenet classification with deep convolutional netural networks.
二、论文结构及学习目标
三、对ImageNet与ILSVRC介绍
1、分类问题常用数据集
类别 | 训练数据 | 测试数据 | 图片格式 | |
---|---|---|---|---|
Mnist(分辨率28*28) | 10 | 50000 | 10000 | Gray |
Cifar-10(分辨率32*32) | 10 | 50000 | 10000 | RGB |
ILSVRC(分辨率几百*几百) | 1000 | 1200000 | 150000 | GGB |
2、ILSVRC
大规模图像识别挑战赛,覆盖图像分类、定位、检测、视频目标检测等。top-1 error和top-5 error(预测前5个类型,如果含有groundtruth类别,不做惩罚)。李飞飞于2010年开发。
3、ImageNet与ILSVRC
ImageNet数据集(http://image-net.org)包含21841个类别,14197122张图片;使用WordNet从中挑选1000类的120000张作为训练集。
四、模型结构
1、网络结构
8层结构,含5层卷积组和3层全连接层。网络共计6000万参数,65万个神经元。GPU连接:2、4、5层与前面对应GPU连接,3层与所有GPU连接,实现信息交换;LRN:只在1、2层出现;Max_pooling:只在1、2、5层出现;ReLU:在所有卷积层和全连接层出现。dropout在FC层使用。
注:输入层图片大小2242243或2272273,不影响卷积后图片大小,均为55*55。
2、ReLu
引入非饱和激活函数,比饱和激活函数训练收敛快。
3、LRN(Local Response Normalization)–局部响应标准化
有助于网络泛化能力提升,对相邻神经元有侧抑制作用。目前有batch normalization,基本不用这个技术。
4、Overlapping pooling–待重叠池化
一般pooling中,通常使用Max pooling或Average pooling,步长stride与卷积核kernal大小一致(s=z)。如果s<z,就会出现重叠情况。
5、双GPU
提升算力
五、训练技巧(减轻过拟合)
1、Data Augment
通过图片裁剪和图片颜色变换。
2、DropOut
随机减少神经元。
六、关键点
算法(AlexNet)、算力(GPU)、算料即数据(ImageNet)
七、启发点
1、深度与宽度可决定网络能力
2、更强大GPU及更多数据可进一步提高模型特性
3、图片缩放细节,对短边先缩放(防止出现短边缺失)
4、ReLU不需要对输入进行标准化来防止饱和现象,sigmoid和tanh有必要对输入进行标准化
5、卷积核学习到频率、方向和颜色特性
6、相似图片具有相近的高级特性
7、层数越高,越抽象
8、图像检索可基于高级特征,效果应优于原始图像
9、网络结构具有相关性,不可轻易移除某一层
10、采用视频数据,有时间序列,可能有新突破
八、问题
1、什么时候用LRN和Max pooling,层次的确定?
2、stride、padding、kernal的多少和大小,为什么这样写?