AlexNet
2021年ImageNet大规模视觉识别挑战赛冠军,精度提升超过10个百分点。
计算机视觉领域最具权威的学术竞赛之一
ImageNet数据集——有斯坦福大学李飞飞教授主导制作,其包含了超过1400万张全尺寸的有标记图片
验证了深度卷积神经网络的高效性
-
提出了一种卷积层加全连接层的卷积神经网络结构
-
首次使用ReLU函数作为神经网络的激活函数
-
首次提出Dropout正则化来控制过拟合
-
使用加入动量的小批量梯度下降算法加速了训练过程的收敛
-
使用数据增强策略极大地抑制了训练过程的过拟合
-
利用GPU的并行计算能力,加速了网络的网络的训练与推断
-
第一层(CONV1): 96个1111 的卷积核,步长为4,没有零填充
问题:输入2272273大小的图像,输出特征图个数及尺寸为多少? (227-11)/4+1=55 问题:这层有多少参数?
(1111*3+1)*96=35K第一个卷积层提取了96种结构的相应信息,得到了96个特征相应图。
特征图每个元素经过ReLU函数操作后输出。
-
MAX POOL1: 窗口大小3*3,步长为2 重叠有助于对抗过拟合。 作用:降低特征图尺寸,对抗轻微的目标偏移。
输出尺寸:(55-3)/2+1=27 特征图个数:96 参数个数:0 -
局部响应归一化层(NORM1)作用:
- 对局部神经元的活动创建竞争机制
- 响应比较大的值变得相对更大
- 抑制其他反馈较小的神经元
- 增强模型的泛化能力
后来的研究证明:更深的网络中该层对分类性能的提升效果并不明显,且会增加计算量与存储空间。
-
第二层(CONV2):256个5*5卷积核,步长为1,使用零填充p=2
问题:输入:272796大小的特征图组,输出特征图个数及尺寸为多少? 尺寸:(27-5+2*2)/1+1=27 个数:256
-
第三、四层(CONV3、CONV4):384个33卷积核,步长为1,使用零填充p=1
问题:CONV3输入:1313256大小的特征图组,输入特征图个数及尺寸为多少? 尺寸:(13-3+21)/1+1=13
个数:384没有进行最大池化与局部归一化
-
第五层(CONV5):256个3*3卷积核,步长为1,使用零填充p=1 最大池化层缩小特征值尺寸。
-
第六——八层(FC6、FC7、FC8):全连接神经网络分类器 MAX POOL3的输出:特征响应图组 FC6输入:9216维向量
输出:图像类别概率
重要说明:
- 用于提取图像特征的卷积层以及用于分类的全连接层是同时学习的;
- 卷积层于全连接层在学习过程中会相互影响、相互促进
重要技巧:
- Dropout策略防止过拟合
- 使用加入动量的随机梯度下降算法,加速收敛
- 验证集损失不下降时,手动降低10背的的学习率
- 采用样本增强策略增加训练样本数量,防止过拟合
- 集成多个模型,进一步提高精度。
问题:AlexNet卷积层在做什么?
- 从数据中学习对于分类有意义的结构特征
- 描述输入图像中的结构信息
- 描述结果储存在256个6*6的特征响应图里
ZFNet
VGG
VGG16
- 13个 卷积层与3个全连接
- 分为5段conv1,…,聪女,每一段中卷积层的卷积核个数均相同
- 所有卷积层均采用3*3的卷积核以及ReLU激活函数
- 所有的池化层都采用最大池化,其窗口大小为2*2,步长为2
- 经过一次池化操作,其后卷积层的卷积核个数就增加一倍,直至到达512
- 全连接层中也采用了Dropout策略
GoogLeNet
串联结构(例如VGG)存在的问题:后面的卷积层只能处理前层输出的特征图;千层因某些原因(比如感受野限制)丢失重要信息,厚层无法找回。
解决方案:每一层尽量多的保留输入信号中的信息。
层数更深,参数更少,计算效率更高,非线性表达能力越强
- 特征响应图上每个位置的值反应了图像对应位置的结构与卷积核记录的语义结构的相似程度
- 平均池化丢失了语义结构的空间位置信息
- 忽略语义结构的位置信息,有志于提升卷积层提取到的特征的平移不变性