VGGNet论文总结思考

Very Deep Convolutional Networks for Large-scale Image Recognition(VGG-Net)

论文简述

本文探究了在大规模图像识别任务中,卷积网络深度对模型准确度的影响。使用带有非常小(3×3)卷积滤波器的体系结构对深度增加的网络进行全面评估。

论文要点

网络结构

VGGNet网络结构

  • 通用布局
    通用布局起到控制变量,各卷积层使用相同的原理设计,如卷积核大小,通道数,全连接层和softmax层等。每个隐层后均采用ReLU实现非线性。

  • 3×3 滤波器
    能够捕捉到上下左右概念的最小尺寸。
    两个3×3的卷积等同于5×5的卷积的感受野。采用3×3卷积核的优势:

    • 采用两次ReLu的非线性操作,提升判别函数的识别能力。
    • 减少参数数量
  • 1×1滤波器
    不改变卷积层的感受野的同时,增强判别函数的非线性(本身是线性映射,但ReLU函数赋予了额外的非线性)

训练过程

  • 图像等比缩放生成训练图片,最小边长为S(也成为训练尺寸)。每次SGD迭代时选中的训练图片进行裁剪,大小为224×224。
  • S可以为单尺寸,也可为多尺寸[Smin,Smax]。因为实际图像中物体具有不同的大小,多尺度可以将这部分考虑入,也可认为是通过尺寸抖动来扩充数据集

测试过程

  • 同理,有测试尺寸Q,Q不需要等于S,也可以采用尺寸抖动。
    对于固定S,取Q={S-32,S,S+32};对于变量S,取Q={Smin,0.5*(Smin+Smax),Smax}。
  • 密集评估(dense evaluation)
    将全连接层转换为卷积层,形成全卷积网络,并应用于整个测试图片上(不进行裁剪)。最终生成一个类分数映射,通道数等于类数,空间分辨率可变,取决于输入图像的大小。为获取固定尺寸的类分数,将类分数映射在空间上求平均。
  • 多裁剪评估(multi-crop evaluation)
    方式同训练过程,两种评估方式的主要区别在于不同的卷积边界条件:对于裁剪后的图像,卷积时特征图用0进行填充,而对于密集估计,可以认为特征图的填充是来自于图像的周边部分,从而增加网络的感受野。
    两者在一定程度上互补。

评估结论

  • 随着卷积网络深度的增加,误差率降低
  • 小滤波器的深层网络 的表现优于 大滤波器的浅层网络
  • 在训练集和测试集上的尺寸抖动都会使结果优于固定尺寸
  • 两种评估方式的融合和最优网络融合也可以提升结果表现
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

思考

  • 训练集和测试集的尺寸抖动会扩充数据集且提高准确度
  • 多种模型和方法融合,效果可能会更好
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值