对AlexNet的理解

最新推荐文章于 2024-02-19 00:15:00 发布

菁菁程mc

最新推荐文章于 2024-02-19 00:15:00 发布

阅读量274

点赞数

文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_38359037/article/details/106169987

版权

AlexNet

一、总述

加拿大多伦多大学第一作者Alex Krizhevsky（Hiton大神的学生）的论文。近代计算机视觉里程碑，ILSVRC2012分类竞赛冠军，ImageNet竞赛上第一次基于卷积神经网络模型得到冠军，top-1和top-5分别是37.5%和15.3%，比第二名top-5 error 降低10.9个百分点。AlexNet相对于LeNet，网络更深，有8层网络，使用11*11的卷积核或滤波器，有6000万个参数，65万个神经元。同时第一次引入ReLu激活层，在全连接层中引入了Dropout层和Data Augmentation防止过拟合。网络结构复杂，因计算机量大，GPU计算力不够，所以使用2个GPU。
论文：Imagenet classification with deep convolutional netural networks.

二、论文结构及学习目标

在这里插入图片描述

三、对ImageNet与ILSVRC介绍

1、分类问题常用数据集

	类别	训练数据	测试数据	图片格式
Mnist（分辨率28*28）	10	50000	10000	Gray
Cifar-10（分辨率32*32）	10	50000	10000	RGB
ILSVRC（分辨率几百*几百）	1000	1200000	150000	GGB

2、ILSVRC

大规模图像识别挑战赛，覆盖图像分类、定位、检测、视频目标检测等。top-1 error和top-5 error（预测前5个类型，如果含有groundtruth类别，不做惩罚）。李飞飞于2010年开发。

在这里插入图片描述

3、ImageNet与ILSVRC

ImageNet数据集（http://image-net.org)包含21841个类别，14197122张图片；使用WordNet从中挑选1000类的120000张作为训练集。

四、模型结构

1、网络结构

8层结构，含5层卷积组和3层全连接层。网络共计6000万参数，65万个神经元。GPU连接：2、4、5层与前面对应GPU连接，3层与所有GPU连接，实现信息交换；LRN：只在1、2层出现；Max_pooling：只在1、2、5层出现；ReLU：在所有卷积层和全连接层出现。dropout在FC层使用。
注：输入层图片大小2242243或2272273，不影响卷积后图片大小，均为55*55。
在这里插入图片描述

图1 AlexNet的8层结构

在这里插入图片描述

图2 AlexNet的8层结构直观图

在这里插入图片描述

图3 AlexNet的8层结构参数计算

2、ReLu

引入非饱和激活函数，比饱和激活函数训练收敛快。

3、LRN（Local Response Normalization）–局部响应标准化

有助于网络泛化能力提升，对相邻神经元有侧抑制作用。目前有batch normalization，基本不用这个技术。

4、Overlapping pooling–待重叠池化

一般pooling中，通常使用Max pooling或Average pooling，步长stride与卷积核kernal大小一致（s=z）。如果s<z，就会出现重叠情况。

5、双GPU

提升算力

五、训练技巧（减轻过拟合）

1、Data Augment

通过图片裁剪和图片颜色变换。

2、DropOut

随机减少神经元。

六、关键点

算法(AlexNet）、算力(GPU)、算料即数据（ImageNet)

七、启发点

1、深度与宽度可决定网络能力
2、更强大GPU及更多数据可进一步提高模型特性
3、图片缩放细节，对短边先缩放（防止出现短边缺失）
4、ReLU不需要对输入进行标准化来防止饱和现象，sigmoid和tanh有必要对输入进行标准化
5、卷积核学习到频率、方向和颜色特性
6、相似图片具有相近的高级特性
7、层数越高，越抽象
8、图像检索可基于高级特征，效果应优于原始图像
9、网络结构具有相关性，不可轻易移除某一层
10、采用视频数据，有时间序列，可能有新突破