VGG网络解读

论文地址:https://arxiv.org/abs/1409.1556

一、网络结构和配置
主要贡献是使用一个带有非常小(3x3)卷积滤波器的架构对增加深度的网络进行了彻底的评估,这表明通过将深度推进到16 - 19个权重层,可以实现对先前art配置的显著改进
1、结构
(1)在训练中,我们的是络一个固定大小的输入224×224 RGB图像。我们所做的唯一预处理是从每个像素中减去在训练集上计算的平均RGB值。
(2)图像通过卷积层的堆栈传递,其中我们使用接受域很小的过滤器:3x3(这是捕捉左/右、上/下、中心概念的最小尺寸)。在其中一种配置中,我们还使用了11个卷积滤波器,它可以被看作输入通道的线性变换(后面是非线性)。卷积步长固定为1像素;空间填充是指经过卷积后保留空间分辨率,即3个卷积层的填充为1像素。
(3)后面由5个max-pooling层执行,它们遵循一些conv层(不是所有conv层都遵循max-pooling)。Max-pooling是在一个22像素的窗口上执行的,步长为2。
(4)所有隐藏层均使用ReLU。

在这里插入图片描述

2、部署
我们将用网名(A-E)来指代网络。所有配置都遵循第2.1节中给出的通用设计,仅在深度上有所不同:与网络A中的11个权重层不同(8 conv.和3 FC层)到网络E中的19个权重层(16个conv层和3个FC层)。conv.层的宽度(channel的数量)比较小,从第一层的64开始,每一层max-pooling后增加2倍,直到512。(图二为各个网络的参数个数)
在这里插入图片描述

二、分类框架
1、训练
(小批量梯度下降)mini-batch gradient descent:batch-size = 256
(动量)momentum = 0.9
通过权重衰减(weight decay)进行正则化
惩罚:L2 penalty multiplier = 5· 10-4
丢失率:dropout ratio = 0.5
2、测试
首先,将其向同性地重新缩放到预先定义的最小图像端,记为Q(我们也将其称为测试尺度)。我们注意到Q不一定等于训练量表S(如我们将在第4节中所示,对每个S使用几个Q值可以提高性能)。
然后,网络以类似于(Sermanet et al. 2014)的方式在重新缩放的测试图像上密集应用。即先将全连通层转换为卷积层(第一个FC层转换为7x7conv层,最后两个FC层转换为11conv层)。然后将得到的全卷积网络应用于整个(未裁剪的)图像。其结果是一个类得分映射,其中通道数等于类数,并具有依赖于输入图像大小的可变空间分辨率。
最后,为了得到图像的类分数的固定大小向量,对类分数映射进行平均池化。我们还增加了测试集的水平翻转图像;对原始图像和翻转图像的软最大值类后验进行平均,得到图像的最终得分。

三、改进总结
1 使用了更小的33卷积核,和更深的网络。两个33卷积核的堆叠相对于55卷积核的视野,三个33卷积核的堆叠相当于77卷积核的视野。这样一方面可以有更少的参数(3个堆叠的33结构只有77结构参数数量的(333)/(77)=55%);另一方面拥有更多的非线性变换,增加了CNN对特征的学习能力。
2 在VGGNet的卷积结构中,引入1*1的卷积核,在不影响输入输出维度的情况下,引入非线性变换,增加网络的表达能力,降低计算量。
3 训练时,先训练级别简单(层数较浅)的VGGNet的A级网络,然后使用A网络的权重来初始化后面的复杂模型,加快训练的收敛速度。
4 采用了Multi-Scale的方法来训练和预测。可以增加训练的数据量,防止模型过拟合,提升预测准确率。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值