Very Deep Convolutional Networks For Large-Scale Image Recognition

最新推荐文章于 2021-07-12 11:03:02 发布

luputo

最新推荐文章于 2021-07-12 11:03:02 发布

阅读量611

点赞数

分类专栏：论文笔记

本文链接：https://blog.csdn.net/luo3300612/article/details/91039300

版权

41 篇文章 3 订阅

订阅专栏

时间：2014

本文的VGG网络在2014年的ImageNet竞赛中分别在定位和分类上获得第一和第二，主要的贡献是使用了小的（3×3）卷积核使得网络可以拓展到16-19层深。

整体结构使用了以下的部件

不同网络的具体结构如表格所示
在这里插入图片描述

与以往的网络不同，VGG没有在第一个卷积层使用大的卷积核（对比AlexNet 的5×5卷积核和ResNet的7×7卷积核），注意两层的3×3卷积核实际感受野是5×5，三层是7×7，那么为什么要使用3×3卷积核呢？

首先，使用3×3卷积核在感受野相同的情况下有更多的非线性层，可以得到更丰富的表示
其次，多个小卷积核的堆叠所需参数更少，假设卷积的输入和输出都是 $C$ 个channel，那么相同感受野下，三层3×3卷积核的参数就是 $3(3^2C^2)=27C^2$ 个，7×7卷积核的参数就是 $7^2C^2=49C^2$ 个，多了81%的参数

1×1的卷积核是为了在不改变感受野的情况下丰富特征的表征

训练的时候先训练模型A，然后用模型A的参数初始化更深的模型的参数，模型A权值用 $10^{-2}$ 为方差的正态分布来初始化所有偏置值初始化为0

数据是从rescaled的图片中crop的224×224的图片，同时采用随机垂直翻转和RGB颜色变换

测试的图片rescale的大小与训练时不一定一样，使用不同的rescale大小可以提升性能

模型在多个GPU上训练，需要约2~3周

记训练图片的scale为 $S$ ，测试图片的scale为 $Q$ ，对于固定的 $S$ ，令 $Q = S$
这里对每个测试图片使用一个scale，实验发现

对每个测试图片使用multi-scale时， $Q=\{S-32,S,S+32\}$ 或 $Q=\{S_{min},0.5(S_{min}+S_{max},S_{max})\}$ ，结果如表格所示，表面multi-scale在测试时效果更好
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

本文通过使用小的卷积核构建更深的网络来得到更好的性能，利用不同的scale方法，在效果上超过当时的state of the art，其CONV-CONV-POOL的设计模式和小卷积核的应用，成为了之后网络设计的一个共识

VGG和AlexNet有何不同？
- VGG使用3×3的小卷积核，相比于AlexNet的5×5卷积核
- VGG卷积层之间都是互联的，相比于AlexNet在两个GPU上的连接方法
- VGG更深，且使用CONV-CONV-POOL的网络模式，相比于AlexNet的CONV-POOL-CONV-POOL模式
- VGG没有使用AlexNet中的LRN
VGG和AlexNet有何相同？
- 都使用卷积+全连接堆叠层的方式
- 都使用线性整流单元作为非线性层