VGG 记录

VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION

该文章的学习点:

1. 选用小的卷积核代替大的卷积核

使用3个3*3卷积核级联来代替7*7卷积核,一方面大大缩减了模型参数量,另一方面,由于每个卷积后都有非线性激活层,所以激活层由原来的 1 层,增加到了 3 层,使得模型具有更强的拟合能力。

 

2. 使用1*1 的卷积核,进一步增加模型的非线性拟合能力。

3. 深度模型训练策略

当模型层数较深时,作者选取的是先训练较浅的模型,然后将训好的浅层模型参数拿来初始化深层的模型,从而节约时间。

4. 抖动尺度数据增强(实验结果表明有效)
由于物体在图片中的尺度是不固定的,所以从多尺度的图片上裁剪,感觉是有益的。出于这样的考虑,作者在大尺度的图片上随机裁剪出224*224,大范围的尺度图片是不固定的,从256到512大小中的任意值。

 

 

该文章疑问的地方?

1. 作者在测试的时候,将全连接层换为了卷积层,但图片的尺寸不用改,这点暂时没想明白?

知乎给出的一个解释是:因此预测时无需裁剪成224 x 224了(因为现在是全卷积网络),可以将整个图片喂入。why?

                                                                                                                                                                                                          

*****************************************************      分割线      ***************************************************************************

下面是总结的不错的链接:

VGGNet论文笔记 - 知乎

该总结有以下主要几点:

1.1 关于VGG的关键点

  1. 更深的网络
  2. 小卷积核3 x 3和1 x 1代替大卷积核
  3. 多尺度训练及预测
  4. 适用于多种计算机视觉任务

1.2 1 x 1卷积核作用:(Network in Network,NiN中也用到了)

  1. 升维或降维
  2. 通道融合 / 跨通道信息交互
  3. 保持feature map尺寸不变(不损失分辨率)的情况下增加网络的非线性特性(虽然1 x 1卷积是线性的,但ReLU是非线性的)

 

1.3 该文章的第 4 点有疑问,也就是红色框部分,将FC层换为卷积层后,网络可以适应图片尺寸的改变吗?

1.4 将 VGG用于定位问题

Localisation定位问题(可看成目标检测的特例)(模型预测是bbox与Ground Truth的IoU大于0.5即可):VGGNet改成预测bounding box(下面都简称为bbox)的模型,一个bbox用中心坐标、长、宽四个数确定,最后一个FC层换成4维(single-class regression,SCR,对所有类别不区分对待,即训练1个bbox)4000维的向量(per-class regression,PCR,每个类别区分对待,即训练1000个bbox)。Softmax损失换成L2损失,训练单尺度模型,模型初始化使用之前的分类的模型,最后一层FC层随机初始化。预测时:第一种方法是仅裁剪出图片中间的一块;第二种方法是用前面的全卷积,这种情况下最后会输出一堆bbox,于是可以对它们进行合并(基于前面分类的结果合并)。这里没有使用可以进一步提高结果的multiple pooling offsets和resolution enhancement technique(有待研究)。

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值