VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION
该文章的学习点:
1. 选用小的卷积核代替大的卷积核
使用3个3*3卷积核级联来代替7*7卷积核,一方面大大缩减了模型参数量,另一方面,由于每个卷积后都有非线性激活层,所以激活层由原来的 1 层,增加到了 3 层,使得模型具有更强的拟合能力。
2. 使用1*1 的卷积核,进一步增加模型的非线性拟合能力。
3. 深度模型训练策略
当模型层数较深时,作者选取的是先训练较浅的模型,然后将训好的浅层模型参数拿来初始化深层的模型,从而节约时间。
4. 抖动尺度数据增强(实验结果表明有效)
由于物体在图片中的尺度是不固定的,所以从多尺度的图片上裁剪,感觉是有益的。出于这样的考虑,作者在大尺度的图片上随机裁剪出224*224,大范围的尺度图片是不固定的,从256到512大小中的任意值。
该文章疑问的地方?
1. 作者在测试的时候,将全连接层换为了卷积层,但图片的尺寸不用改,这点暂时没想明白?
知乎给出的一个解释是:因此预测时无需裁剪成224 x 224了(因为现在是全卷积网络),可以将整个图片喂入。why?
***************************************************** 分割线 ***************************************************************************
下面是总结的不错的链接:
该总结有以下主要几点:
1.1 关于VGG的关键点
- 更深的网络
- 小卷积核3 x 3和1 x 1代替大卷积核
- 多尺度训练及预测
- 适用于多种计算机视觉任务
1.2 1 x 1卷积核作用:(Network in Network,NiN中也用到了)
- 升维或降维
- 通道融合 / 跨通道信息交互
- 保持feature map尺寸不变(不损失分辨率)的情况下增加网络的非线性特性(虽然1 x 1卷积是线性的,但ReLU是非线性的)
1.3 该文章的第 4 点有疑问,也就是红色框部分,将FC层换为卷积层后,网络可以适应图片尺寸的改变吗?
1.4 将 VGG用于定位问题
Localisation定位问题(可看成目标检测的特例)(模型预测是bbox与Ground Truth的IoU大于0.5即可):VGGNet改成预测bounding box(下面都简称为bbox)的模型,一个bbox用中心坐标、长、宽四个数确定,最后一个FC层换成4维(single-class regression,SCR,对所有类别不区分对待,即训练1个bbox)或4000维的向量(per-class regression,PCR,每个类别区分对待,即训练1000个bbox)。Softmax损失换成L2损失,训练单尺度模型,模型初始化使用之前的分类的模型,最后一层FC层随机初始化。预测时:第一种方法是仅裁剪出图片中间的一块;第二种方法是用前面的全卷积,这种情况下最后会输出一堆bbox,于是可以对它们进行合并(基于前面分类的结果合并)。这里没有使用可以进一步提高结果的multiple pooling offsets和resolution enhancement technique(有待研究)。