【 深度学习----论文解读 】 VGG

【 背景 】
VGG的全称是Oxford Visual Geometry Group的简称。该小组隶属于1985年成立的Robotics Research Group,该Group研究范围包括了机器学习到移动机器人。该团队斩获2014年ImageNet挑战赛分类第二(第一是GoogLeNet),定位任务第一。
数据集:1000个类别的ILSVRC-2012数据集(Large Scale Visual Recognition Challenge),其中:
训练集:130万张图片;
验证集:5万张图片;
测试集:10万张图片,这组数据的label没有给出(with held-out class labels)。
在这里插入图片描述

【 摘要 】
论文的主要创新点在于:

  • 用小卷积核代替了55或者77的卷积核

  • 基于ALexnet加深了网络深度。

  • 采用多尺度训练集和验证集训练或测试

【数据预处理】
只进行了归一化处理,归一化的方法是减去RGB每个通道的均值。
【网络详解】
以VGG16为例:
1) 卷积层全部由33和11构成,其中,33的卷积核stride=1,padding尺寸为1;11的卷积核stride=1,无padding
2) 全部采用max pooling,stride=2,尺寸为22
3) 最后得到的7
7512会flatten成125088个神经元结点,随后连接到FC层,形成4096个神经元

在这里插入图片描述
(原谅我放荡不羁爱自由哈哈,图片略丑)
在这里插入图片描述
整个网络由Conv层,Maxpooling层以及FC层构成,分析一下每个层的作用:

Conv: 提取特征,如果一个卷积核为6433,那么它有64个通道,也就是会有64个feature会被提取。

  • 使用33Conv的原因:2个33的卷积核相当于一个55的卷积核,3个33的卷积核相当于一个77的卷积核。越大的卷积核,参数量越大,这时候体现出小卷积核的优势(3个33Conv的参数量27C^2)。
  • 使用1*1卷积核的原因:在不改变感受野前提下可以增加网络非线性,改变特征维度

Maxpooling: 池化做的事情是根据对应的max或者average方式进行特征筛选,还是在做特征工程上的事情。与此同时,下采样可以减小过拟合,有利于网络的加深和加宽。加深和加宽实际上是同时的,在添加Maxpooling之后,可以增大感受野,也允许加深网络。

FC层: 全连接层,拥有整个网络最大的参数量。将FC层初始化bias=0.1,std=0.005,是为了在反向传播的时候能动起来。在VGG网络中,FC的节点数对网络预测效果的影响不大。

对网络的理解:
1) 卷积层中卷积核的个数是由小变大的,首先我们认为低维度的特征较为简单,其次,开始时候特征图的尺寸较大,这样做可以节省一部分内存。随着网络的加深,一方面特征图在经过池化后不断缩小尺寸,另一方面卷积核感受野不断增大,学习到了更加复杂的特征,卷积核个数需要加大。
2) 利用flatten将二维矩阵变成一维矩阵可能会造成信息的丢失,对结果产生一定影响。

另外还采用了多模型融合。
作者在test时候将网络的全连接层替换成卷积层,FC1–> 77,最后两个FC–>11,还对测试图片用了水平翻转。

在这里插入图片描述

【 分类任务配置 】

  1. 输入图片最小尺寸2242243,这里注意有channel first和channel last问题,如果tensorflow backend,channel last。
    论文中对比实验单通道和多个尺寸随机切块(256,384)训练,发现多尺度训练结果的top-1和top-5error是最小的。
  2. 采用较小的Filter尺寸-33,stride=1。33是最小的能够捕获上下左右和中心概念的尺寸。
  3. Max-Pooling:2*2,stride=2;
  4. batch_size=256,momentum=0.9,dropout=0.5,优化器:SGD,学习率先初始化为0.01,当val集上准确度不变,lr减小10倍。
  5. 添加了L2正则化,L2 penalty multipliter=5e-4
  6. 网络的初始化采用random initialization(mean=0,方差为0.01)
  7. 从输入尺寸较小的开始训练,再作为下一个尺寸训练的迁移学习初始化。学习率也调整为初始化lr=0.001

【实验】
从结果来看:

  • 网络深度越大,结果越好。
  • 训练时候采用不同尺度的图片一起训练效果更好。
  • 当测试时候采用比训练时候尺寸±32图片测试,结果又有1%左右提升
    (ABCDE分别代表网络深度为11-19)
    在这里插入图片描述
    在这里插入图片描述
    【 定位 】未完待续
    【 参考 】
  1. 论文原文:https://arxiv.org/pdf/1409.1556.pdf
  2. 分解为一个个问题细致讲解:https://blog.csdn.net/qq_26591517/article/details/81071393
  3. https://blog.csdn.net/u011440696/article/details/77756776
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值