【论文】VGGNet

最新推荐文章于 2022-03-30 23:30:00 发布

大白羊_Aries

最新推荐文章于 2022-03-30 23:30:00 发布

阅读量179

点赞数

分类专栏： MILVLG 文章标签：深度学习神经网络 pytorch

本文链接：https://blog.csdn.net/qq_38204302/article/details/120040352

版权

MILVLG 专栏收录该内容

41 篇文章 1 订阅

订阅专栏

VGGNet是由Simonyan和Zisserman提出的深度卷积网络，以使用小卷积核（3×3）和1×1卷积核减少参数量并加深网络结构为特点。该网络通过多段3×3卷积层堆叠，取代大卷积核，实现了更深的网络，同时使用1×1卷积增加非线性。此外，VGGNet采用多尺度训练增强数据多样性，证明了LRN效果有限，并提出先训练简单模型再用于初始化复杂模型的训练策略，有效提高了训练效率。

摘要由CSDN通过智能技术生成

【论文】Simonyan K , Zisserman A . Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. Computer ence, 2014.（pdf）

【新颖点】

更深的网络
使用小卷积核 $3\times3$ 和 $1\times1$ 替代大卷积核
多尺度训练及预测

网络结构

比较常见的为 VGG-16 和 VGG-19，VGGNet 把网络分成了 5 段，每段都将多个 $3\times3$ 的卷积网络串联在一起，每段卷积后面接一个最大池化层，最后面是 3 个全连接层和一个 softmax 层

在这里插入图片描述

加深比加宽更好

如果要增大感受野，一般的思路是直接增加卷积核的大小，但是这直接增加了参数的数量，假设有 $C$ 个 $7\times7$ 的卷积核，其参数量为 $7C\times7C=49C^2$ 。作者认为用小的卷积核串联不仅能起到增大感受野的作用，而且能够减小参数数量，例如，这里我们可以用 $3$ 个 $3\times3$ 的卷积核串联同样能达到 $7\times7$ 的感受野，但参数量却只有 $3\times3C\times3C=27C^2$

至于为什么三个 $3\times3$ 的卷积核串联的感受野等同于一个 $7\times7$ 的卷积核，或者两个 $3\times3$ 的卷积核串联的感受等同于一个 $5\times5$ 的卷积核简单画个草图就能很容易明白

在这里插入图片描述

另外，论文中作者也主张使用 $1\times1$ 的卷积核来增加线性换，这种方式在保持空间维度不变的情况下，增加了决策函数的非线性性

多尺度训练

VGGNet 使用了 Multi-Scale 的方法增强数据——将原始图像缩放到不同尺寸 $S$ ，然后在随机剪裁成 224 x 224 的图片，这样可以增加数据量。作者设置 $S$ 在 $[256, 512]$ 这个区间内取值，使用 Multi-Scale 获得多个版本的数据，并将这些数据合在一起训练