盏茶论文CV篇(二) Very Deep Convolutional Networks for Large-Scale Image Recognition

基本内容
论文题目

《Very Deep Convolutional Networks for Large-Scale Image Recognition》

论文地址

http://arxiv.org/abs/1409.1556.pdf

论文简介

2014年ImageNet定位任务冠军,分类任务亚军,使用小卷积核和卷积步长,并在训练和测试阶段使用图的不同尺度,非常有效的提升了模型的分类准确率。

其他名称

VGGNet

摘要翻译

本文研究了在大规模图片识别中,卷积神经网络的深度对准确率(accuracy)的影响。我们的主要贡献是通过非常小的3x3卷积核的神经网络架构全面评估了增加深度对网络的影响,结果表明16-19层的网络可以使现有设置的网络性能得到显著提高。这项发现是我们在2014年的ImageNet比赛中提交方案的基础,我们的团队分别在定位和分类中获得了第一和第二的成绩。我们还证明了此模型可以泛化到其他数据集上,并达到当前最佳水平。我们已经公布了两个性能最佳的卷积神经网络模型,以便深度视觉在计算机视觉中的进一步研究。

正文介绍
网络架构

VGG文章中共列出了6种VGG的变种网络,网络架构如下,
在这里插入图片描述

感受野

感受野(Receptive Field)的定义是卷积神经网络每一层输出的特征图上的像素点在输入图片上映射的区域大小,即特征图上的一个点跟原图上有关系的点的区域
感受野计算公式:
感受野大小 = 上一层感受野大小 + (本层卷积核尺寸 - 1)(卷积步幅大小的累乘)
举例:一个5
5的卷积核感受野的大小与两个3*3的卷积核感受野相同

为什么使用3*3的卷积核

1.深度更深并增加了非线性
3个33的卷积核感受野与1个77卷积核感受野等效,但是3个33卷积之间加入了激活函数,与仅使用1个77卷积核相比,深度更深且增加了非线性
2.参数量更少
假设输入通道大小为C,3个C通道的33的卷积核参数量为27CC,1个C通道的77卷积核参数量为49CC

1*1卷积核的作用

增加非线性因素的方式,也可以调整网络维度扩维或缩小维度

卷积层替代全连接层

全连接层可以接受的特征输入维度需要保持不变,否则会出现尺寸不匹配的问题,如果输入不同维度的特征,对卷积步长进行调整,就可以使网络接受不同维度的输入特征

训练数据的处理

对输入的图片进行等比变化,然后进行切割的方式,最后在进行水平翻转,RGB通道变化等方式增加数据量,多尺度数据可以通过随机裁剪或者中心裁剪等其他方法,增加数据量级

实验结果

1.LRN对网络性能提升没有帮助
2.对于同一个网络多尺度训练可以提高网络精度,尺度抖动(scale jittering)有利于网络性能提升
3.单尺度测试V1GG19效果最好,一定程度加深网路可以提高网络精度,多尺度测试VGG16效果最好
4.多个小卷积核比单个大卷积核更好(相比于AlexNet)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值