VGGNet网络模型

VGGNet是牛津大学计算机视觉组(Visual Geometry Group)和Google DeepMind公司的研究员一起研发的的深度卷积神经网络。VGGNet探索了卷积神经网络的 深度与其性能之间的关系,通过 反复堆叠3x3的小型卷积核和2x2的最大池化层,VGGNet成功地构筑了16~19层深的卷积神经网络。并取得了ILSVRC 2014比赛分类项目的第2名(错误率7.3%)和定位项目的第1名。

VGGNet论文中全部使用了3x3的卷积核和2x2的池化核通过不断加深网络结构来提升性能。下图所示为VGGNet各级别的网络结构图,和每一级别的参数量,从11层的网络一直到19层的网络都有详尽的性能测试。

图示:虽然从A到E每一级网络逐渐变深,但是网络的参数量并没有增多,这是因为参数量主要都消耗在最后3个全连接层。前面的卷积部分虽然很深,但消耗的参数量不大,不过训练比较耗时的部分依然是卷积,因其计算量比较大。这其中的DE即常说的VGGNet-16和VGGNet-19。

VGGNet网络模型作为CNN之一,也是分为卷积层提取特征和全连接层进行分类这两个模块。

图示VGGNet网络拥有5段卷积,每一段内有2-3个卷积层,同时每段尾部会连接一个2x2的最大池化层用来缩小图片(feature map)尺寸,最终缩小成原尺寸的1/25=1/32。每段内的卷积核数量(即卷积深度或通道数)一样,越靠后的段的卷积核数量越多:64-128-256-512-512。其中经常出现多个完全一样的3x3的卷积层堆叠在一起的情况,此种设计有其实用价值(优势):两个3x3的卷积层串联相当于1个5x5的卷积层,即一个像素会跟周围5x5的像素产生关联,可以说是感受野大小为5x5。而3个3x3的卷积层串联的效果则相当于1个7x7的卷积层,却拥有比直接1个7x7的卷积层更少的参数量,仅后者的55%,也比后者拥有更多的非线性变换(前者可用三次ReLU激活函数,后者只有一次),使得CNN对特征的学习能力更强。VGGNet网络最后一段是全连接网络,含3个全连接层

A网络(11层)有8个卷积层和3个全连接层,E网络(19层)有16个卷积层和3个全连接层,卷积层宽度(通道数)从64到512,每经过一次池化操作,扩大一倍。

  • 输入:训练时输入大小为224×224的RGB图像

  • 预处理:在训练集中的每个像素减去RGB的均值

  • 卷积核:3×3大小的卷积核,有的地方使用1×1的卷积,被看做是对输入通道的线性变换。

  • 步长:stride = 1

  • 填充:padding = 1

  • 池化:max-pooling,共有5层在一部分卷积层之后,连接的max-pooling的窗口是2x2,步长为2

  • 全连接层:前两个全连接层均有4096个通道,第三个全连接层由1000个通道,用来分类。所有网络的全连接层配置相同。

  • 激活函数:ReLU

  • 不使用LRN,这种标准化并不能带来很大的提升,反而会导致更多的内存消耗和计算时间。

堆叠两个3×3的卷积核替代5x5的卷积核,堆叠三个3×3的卷积核替代7x7的卷积核。感受野的变化情况:

feature map: F = 1

conv3x3 (第3次):F = (1 - 1) x 1 + 3 = 3

conv3x3 (第2次):F = (3 - 1) x 1 + 3 = 5 (即相当于5x5卷积核感受野)

conv3x3 (第1次):F = (5 - 1) x 1 + 3 = 7 (即相当于7x7卷积核感受野)

经3×3卷积得到的特征矩阵的尺寸是不改变的

VGG-19网络结构精简版

VGGNet是最重要的模型之一,因为它再次强调CNN必须够深,视觉数据的层次化表示才有用。深的同时结构简单。VGGNet的模型参数虽然比AlexNet多,但反而只需要较少的迭代次数就可以收敛,主要原因是更深的网络和更小的卷积核带来的隐式的正则化效果

常用的VGG-16模型,其网络结构如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值