飞桨学习笔记之经典图像分类模型

1 LeNet

LeNet 通过连续使用卷积和池化层的组合提取图像特征。网络结构示意图:
在这里插入图片描述

  1. 第一模块:包含5×5的6通道卷积和2×2的池化。卷积提取图像中包含的特征模式(激活函数使用 sigmoid),图像尺寸从32减小到28(32-5+1=28)。经过池化层可以降低输出特征图对空间位置的敏感性,图像尺寸减到14(28/2=14)。
  2. 第二模块:和第一模块尺寸相同,通道数由6增加为16。卷积操作使图像尺寸减小到10(14-5+1=10),经过池化后变成5(10/2=5)。
  3. 第三模块:包含5×5的120通道卷积。卷积之后的图像尺寸减小到1(5-5+1=1),但是通道数增加为120。将经过第3次卷积提取到的特征图输入到全连接层。第一个全连接层的输出神经元的个数是64,第二个全连接层的输出神经元个数是分类标签的类别数,对于手写数字识别其大小是10。然后使用 SoftMax 激活函数即可计算出每个类别的预测概率。

卷积层的输出特征图如何当作全连接层的输入使用呢?
卷积层的输出数据格式是[N,C,H,W],在输入全连接层的时候,会自动将数据拉平,也就是对每个样本,自动将其转化为长度为K的向量,其中 K=C×H×W,一个 mini-batch 的数据维度变成了 N×K 的二维向量。

在图片尺寸比较大时,LeNet 在图像分类任务上存在局限性。

2 AlexNet

AlexNet 与 LeNet 相比,具有更深的网络结构,包含5层卷积和3层全连接,同时使用了如下三种方法改进模型的训练过程:

  1. 数据增广:可以随机改变训练样本,避免模型过度依赖于某些属性,能从一定程度上抑制过拟合。
  2. 使用 Dropout 抑制过拟合。
  3. 使用 ReLU 激活函数减少梯度消失现象。

网络结构示意图:
在这里插入图片描述

3 VGG

VGG-16 的网络结构示意图:(下半部分顺序为从左到右)
在这里插入图片描述
将最后一层全连接层的输出作为分类的预测。每层卷积将使用 ReLU 作为激活函数,在全连接层之后添加 dropout 来抑制过拟合。使用小的卷积核能够有效地减少参数的个数,使得训练和测试变得更加有效。比如使用两层3×3卷积层,可以得到感受野为5的特征图,而比使用5×5的卷积层需要更少的参数。由于卷积核比较小,可以堆叠更多的卷积层,加深网络的深度,这对于图像分类任务来说是有利的。VGG 模型的成功证明了增加网络的深度,可以更好地学习图像中的特征模式。

4 GoogLeNet

空间分布范围更广的图像信息适合用较大的卷积核来提取其特征;而空间分布范围较小的图像信息则适合用较小的卷积核来提取其特征。为了解决这个问题,GoogLeNet 提出了一种被称为 Inception 模块的方案。Inception 模块结构示意图:
在这里插入图片描述
图(a)是 Inception 模块的设计思想,使用3个不同大小的卷积核对输入图片进行卷积操作,并附加最大池化,将这4个操作的输出沿着通道这一维度进行拼接,构成的输出特征图将会包含经过不同大小的卷积核提取出来的特征。
Inception 模块采用多通路(multi-path)的设计形式,每个支路使用不同大小的卷积核,最终输出特征图的通道数是每个支路输出通道数的总和,这将会导致输出通道数变得很大,尤其是使用多个 Inception 模块串联操作的时候,模型参数量会变得非常大。为了减小参数量,Inception 模块使用了图(b)中的设计方式,在每个3x3和5x5的卷积层之前,增加1x1的卷积层来控制输出通道数;在最大池化层后面增加1x1卷积层减小输出通道数。
池化操作可以指定窗口大小 k_h=k_w=3,pool_stride=1 和 pool_padding=1,此时输出特征图尺寸就可以保持不变,从而和另外3个卷积输出的特征图进行拼接。

GoogLeNet 模型网络结构示意图:
在这里插入图片描述
在主体卷积部分中使用5个模块(block),每个模块之间使用最大池化层来减小输出高宽。第三模块串联2个完整的 Inception 块。第五模块的后面紧跟输出层,使用全局平均池化层来将每个通道的高和宽变成1,最后接上一个输出个数为标签类别数的全连接层。
添加了 softmax1 和 softmax2 两个辅助分类器,训练时将三个分类器的损失函数进行加权求和,以缓解梯度消失现象。

5 ResNet

残差块(Residual block)设计思想:
在这里插入图片描述
图(a):表示增加网络的时候,将 x 映射成 y=F(x) 输出。
图(b):残差块。输出 y=F(x)+x。这时不是直接学习输出特征 y 的表示,而是学习 y−x。如果想学习出原模型的表示,只需将 F(x) 的参数全部设置为0,则 y=x 是恒等映射。F(x)=y−x 也叫做残差项,如果 x→y 的映射接近恒等映射,图中通过学习残差项也比图(a)学习完整映射形式更加容易。输入 x 通过跨层连接,能更快地向前传播数据,或者向后传播梯度。

残差块的具体设计方案如图:
在这里插入图片描述
这种设计方案也称作瓶颈结构(BottleNeck)。

ResNet-50 模型包含49层卷积和1层全连接,网络结构示意图:
在这里插入图片描述
小结:可以进一步调整学习率和训练轮数等超参数,观察是否能够得到更高的精度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值