VGG 记录

最新推荐文章于 2020-07-18 15:35:15 发布

bl128ve900

最新推荐文章于 2020-07-18 15:35:15 发布

阅读量199

点赞数

分类专栏：论文学习文章标签： VGG

本文链接：https://blog.csdn.net/bl128ve900/article/details/89472550

版权

论文学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION

该文章的学习点：

1. 选用小的卷积核代替大的卷积核

使用3个3*3卷积核级联来代替7*7卷积核，一方面大大缩减了模型参数量，另一方面，由于每个卷积后都有非线性激活层，所以激活层由原来的 1 层，增加到了 3 层，使得模型具有更强的拟合能力。

2. 使用1*1 的卷积核，进一步增加模型的非线性拟合能力。

3. 深度模型训练策略

当模型层数较深时，作者选取的是先训练较浅的模型，然后将训好的浅层模型参数拿来初始化深层的模型，从而节约时间。

4. 抖动尺度数据增强（实验结果表明有效）
由于物体在图片中的尺度是不固定的，所以从多尺度的图片上裁剪，感觉是有益的。出于这样的考虑，作者在大尺度的图片上随机裁剪出224*224，大范围的尺度图片是不固定的，从256到512大小中的任意值。

该文章疑问的地方？

1. 作者在测试的时候，将全连接层换为了卷积层，但图片的尺寸不用改，这点暂时没想明白？

知乎给出的一个解释是：因此预测时无需裁剪成224 x 224了（因为现在是全卷积网络），可以将整个图片喂入。why？

***************************************************** 分割线 ***************************************************************************

下面是总结的不错的链接：

VGGNet论文笔记 - 知乎

该总结有以下主要几点：

1.1 关于VGG的关键点

更深的网络
小卷积核3 x 3和1 x 1代替大卷积核
多尺度训练及预测
适用于多种计算机视觉任务

1.2 1 x 1卷积核作用：（Network in Network，NiN中也用到了）

升维或降维
通道融合 / 跨通道信息交互
保持feature map尺寸不变（不损失分辨率）的情况下增加网络的非线性特性（虽然1 x 1卷积是线性的，但ReLU是非线性的）

1.3 该文章的第 4 点有疑问，也就是红色框部分，将FC层换为卷积层后，网络可以适应图片尺寸的改变吗？

1.4 将 VGG用于定位问题

Localisation定位问题（可看成目标检测的特例）（模型预测是bbox与Ground Truth的IoU大于0.5即可）：VGGNet改成预测bounding box（下面都简称为bbox）的模型，一个bbox用中心坐标、长、宽四个数确定，最后一个FC层换成4维（single-class regression，SCR，对所有类别不区分对待，即训练1个bbox）或4000维的向量（per-class regression，PCR，每个类别区分对待，即训练1000个bbox）。Softmax损失换成L2损失，训练单尺度模型，模型初始化使用之前的分类的模型，最后一层FC层随机初始化。预测时：第一种方法是仅裁剪出图片中间的一块；第二种方法是用前面的全卷积，这种情况下最后会输出一堆bbox，于是可以对它们进行合并（基于前面分类的结果合并）。这里没有使用可以进一步提高结果的multiple pooling offsets和resolution enhancement technique（有待研究）。

bl128ve900

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
VGG 记录

VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION该文章的学习点：1. 选用小的卷积核代替大的卷积核使用3个3*3卷积核级联来代替7*7卷积核，一方面大大缩减了模型参数量，另一方面，由于每个卷积后都有非线性激活层，所以激活层由原来的 1 层，增加到了 3 层，使得模型具有更强的拟合能力。2....
复制链接

扫一扫

专栏目录