vgg16卷积层的计算量_PaddlePaddle实现VGG16

一、VGG简介

牛津大学VGG(Visual Geometry Group)组在2014年ILSVRC提出的模型被称作VGG模型 。该模型相比以往模型进一步加宽和加深了网络结构,它的核心是五组卷积操作,每两组之间做Max-Pooling空间降维。同一组内采用多次连续的3X3卷积,卷积核的数目由较浅组的64增多到最深组的512,同一组内的卷积核数目是一样的。卷积之后接两层全连接层,之后是分类层。由于每组内卷积层的不同,有11、13、16、19层这几种模型,下图展示一个16层的网络结构。VGG模型结构相对简洁,提出之后也有很多文章基于此模型进行研究,如在ImageNet上首次公开超过人眼识别的模型就是借鉴VGG模型的结构。

f383b31ea586b6d7d8eaf2db9aea8ccd.png

VGGNet使用的全部都是3x3的小卷积核和2x2的池化核,通过不断加深网络来提升性能。各个级别VGG的模型结构如下表所示,其下方为不同模型的参数数量。可以看到,虽然从A到E每一级网络逐渐变深,但是网络的参数量并没有增长很多,这是因为参数量主要都消耗在最后3个全连接层了。前面的卷积层数量虽多,但是参数量其实都不大,不过训练时候耗时的依然是卷积层,因为这部分计算量比较大。其中D,E分别为VGG16和VGG19。

f6c4002555fc821bb819de5bdff974a7.png

77dfbe15760f01bb3a23b8203189ea23.png

与B相比,C多使用了几个1x1的卷积层,1x1的卷积层的主要意义在于非线性变换和降维,在这里则是非线性变换。

VGG拥有5个卷积段,每一个卷积段有2-3个卷积层,同时每段的结尾都会连接一个最大池化层,来缩小图片尺寸。每段内的卷积核数量都一样,越靠后的段的卷积核数量越多:64-128-256-512-512。其中经常出现多个完全一样的3x3卷积层堆叠在一起的情况,这是个非常有用的设计。如下图所示,两层3x3的串联卷积结果相当于一个5x5的卷积,即最后一个像素会与周围5x5个像素产生关联,可以说感受野大小为5x5。而3层3x3的卷积核的串联结果则相当于1个7x7的卷积层。除此之外,3个串联的3x3卷积层的参数数量要比一个7x7卷积层的参数数量小得多,即333C2/77C2 = 55%,__更少的参数意味着减少过拟合,而且更重要的是3个3x3卷积层拥有比1个7x7的卷积层更少的非线性变换(前者拥有3次而后者只有一次),使得CNN对特征的学习能力更强。

487af2f934bf901d6abe88ac200b11ac.png

在训练时,VGG除了使用AlexNet中的图像增强方法外,还尝试了多尺度训练进行数据增强,即将图片缩放到S大小,然后从中随机裁剪224x224大小的图片来进行训练,同时被裁剪的图片的大小S也分为固定的和某一个范围,理论上只要满足S》=就够了,而对于不同的S,测试的尺

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值