对AlexNet的理解

AlexNet

一、总述

加拿大多伦多大学第一作者Alex Krizhevsky(Hiton大神的学生)的论文。近代计算机视觉里程碑,ILSVRC2012分类竞赛冠军,ImageNet竞赛上第一次基于卷积神经网络模型得到冠军,top-1和top-5分别是37.5%和15.3%,比第二名top-5 error 降低10.9个百分点。AlexNet相对于LeNet,网络更深,有8层网络,使用11*11的卷积核或滤波器,有6000万个参数,65万个神经元。同时第一次引入ReLu激活层,在全连接层中引入了Dropout层和Data Augmentation防止过拟合。网络结构复杂,因计算机量大,GPU计算力不够,所以使用2个GPU。
论文:Imagenet classification with deep convolutional netural networks.

二、论文结构及学习目标

在这里插入图片描述

在这里插入图片描述

三、对ImageNet与ILSVRC介绍

1、分类问题常用数据集

类别训练数据测试数据图片格式
Mnist(分辨率28*28)105000010000Gray
Cifar-10(分辨率32*32)105000010000RGB
ILSVRC(分辨率几百*几百)10001200000150000GGB

2、ILSVRC

大规模图像识别挑战赛,覆盖图像分类、定位、检测、视频目标检测等。top-1 error和top-5 error(预测前5个类型,如果含有groundtruth类别,不做惩罚)。李飞飞于2010年开发。

在这里插入图片描述

3、ImageNet与ILSVRC

ImageNet数据集(http://image-net.org)包含21841个类别,14197122张图片;使用WordNet从中挑选1000类的120000张作为训练集。

四、模型结构

1、网络结构

8层结构,含5层卷积组和3层全连接层。网络共计6000万参数,65万个神经元。GPU连接:2、4、5层与前面对应GPU连接,3层与所有GPU连接,实现信息交换;LRN:只在1、2层出现;Max_pooling:只在1、2、5层出现;ReLU:在所有卷积层和全连接层出现。dropout在FC层使用。
注:输入层图片大小2242243或2272273,不影响卷积后图片大小,均为55*55。
在这里插入图片描述

图1 AlexNet的8层结构

在这里插入图片描述

图2 AlexNet的8层结构直观图

在这里插入图片描述

图3 AlexNet的8层结构参数计算

2、ReLu

引入非饱和激活函数,比饱和激活函数训练收敛快。

3、LRN(Local Response Normalization)–局部响应标准化

有助于网络泛化能力提升,对相邻神经元有侧抑制作用。目前有batch normalization,基本不用这个技术。

4、Overlapping pooling–待重叠池化

一般pooling中,通常使用Max pooling或Average pooling,步长stride与卷积核kernal大小一致(s=z)。如果s<z,就会出现重叠情况。

5、双GPU

提升算力

五、训练技巧(减轻过拟合)

1、Data Augment

通过图片裁剪和图片颜色变换。

2、DropOut

随机减少神经元。

六、关键点

算法(AlexNet)、算力(GPU)、算料即数据(ImageNet)

七、启发点

1、深度与宽度可决定网络能力
2、更强大GPU及更多数据可进一步提高模型特性
3、图片缩放细节,对短边先缩放(防止出现短边缺失)
4、ReLU不需要对输入进行标准化来防止饱和现象,sigmoid和tanh有必要对输入进行标准化
5、卷积核学习到频率、方向和颜色特性
6、相似图片具有相近的高级特性
7、层数越高,越抽象
8、图像检索可基于高级特征,效果应优于原始图像
9、网络结构具有相关性,不可轻易移除某一层
10、采用视频数据,有时间序列,可能有新突破

八、问题

1、什么时候用LRN和Max pooling,层次的确定?
2、stride、padding、kernal的多少和大小,为什么这样写?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值