Better to follow, follow to be better(2019 ICCV)

论文:Better to follow, follow to be better:towards precise supervision of feature super-resolution for small object detection

目录

1.引言

2.1相对感受野匹配

2.2本文方法

SR target extractor

SR feature generator

SR feature discriminator

 Small predictor

2.3训练

2.4推理

3.实验

缺点(个人观点):

启发


1.引言

        本篇文章聚焦在基于建议框(proposal-based)的检测架构在小目标检测上的改进。

        现有的基于建议框的检测架构存在的问题是:小目标的RoI太小,难以辨别。自然会想到丰富小目标建议框的信息,合适的做法是在特征层级上运用超分辨率技术来增强建议框的特征,比较经典的工作是Perceptual GAN,它基于GAN生成小目标的超分辨率表征,使其和大目标特征相似。但是存在的问题是缺乏直接的监督,这会导致训练的不稳定和生成的超分辨率特征的质量不高。

        针对这个问题,本文引入合适的高分辨率的目标特征作为训练超分网络的监督信号。同时,本文通过分析发现输入低分辨率特征和高分辨率目标特征是一个训练对,这个训练对的相对感受野匹配对于小目标来说至关重要,会影响到生成的超分建议框的质量。

        总结来说,本文主要贡献:

  1. 通过特征层级的超分辨率技术来增强小目标的特征表示;
  2. 提出新的高分目标特征提取器,生成高分目标特征直接监督超分网络的训练;
  3. 考虑高分目标特征-低分特征对的相对感受野匹配问题。

2.1相对感受野匹配

 RoI的绝对感受野:

 RoI的相对感受野:

 下面讨论当输入图像尺寸改变时,RoI相对感受野的不同。

当0.5倍下采样图片作为输入时,I_W\rightarrow 0.5I_Ww\rightarrow 0.5w,不同输入图片下RoI相对感受野的区别用DRRF表示:

 其中:c=R_W/D-1,是一个常数。

当w趋近于0时,DRRF收敛于2,当w趋近于时,DRRF收敛于1,所以,当RoI越小时,RRF的差别会越大,当RoI越大时,RRF的差别越小。这就解释了当检测小目标时,不同分辨率的输入图片所得到的小目标的RoI的感受野是差别很大的,会严重误导超分网络的训练。

2.2本文方法

在基模型的基础上,引入了四个部件:SR 特征生成器、SR特征判别器、SR目标提取器和小目标预测器。SR 特征生成器用来生成高分辨率特征,SR特征判别器用来指导SR 特征生成器,SR目标提取器生成特征目标,小目标预测器用来预测小目标。

I^{1.0}:原始输入图像,I^{0.5}:0.5倍下采样的图像

F_i ^{1.0}:原始图像上第i个RoI特征,F_i ^{0.5}:0.5倍下采样的图像上第i个RoI特征

T_i ^{1.0}:F_i ^{0.5}的高分目标特征

SR target extractor

①共享参数

SR target extractor和CNN backbone共享参数,以降低计算量。

②相对感受野匹配

通过提高网络的绝对感受野,来提高相对感受野。

1.对池化层,因为它是无参数的,增加核的大小就可以扩大感受野。

2.对卷积层,增加卷积核大小会增加参数,就没办法参数共享了,因此使用空洞卷积。本文使用的是空洞率为2的卷积,并且对于stride>1的卷积,比如stride=2,如果改成stride=2的、空洞率为2的空洞卷积,会对部分像素失去采样,因此使用stride=1的空洞卷积+max_pool size 2。

总结来说,SR target extractor 由一系列空洞卷积层和最大池化层构成,保证它与CNN backbone有相同的相对感受野(没有严格的计算让RRF严格一致)。另外,SR target extractor 和CNN backbone是共享参数的。所以,SR target extractor 生成的特征相比于用CNN backbone生成的特征含有更多的上下文信息,并且RoI相对感受野保持一致,更适合作为目标,直接监督超分网络训练。

SR feature generator

增强小目标建议框的特征

①网络结构

残差结构,输入输出的特征图的shape没有变化。

②损失函数

1)SR target extractor生成的T_i ^{1.0}作为直接监督信号,用l2损失

 2)对抗损失

 3)分类回归损失

SR feature discriminator

判别器由三层的mlp构成,训练判别器使得它能够区分T_i ^{1.0}S_i ^{0.5},而生成器是被训练生成逼真的骗过判别器,损失函数为对抗损失:

 Small predictor

网络结构和base detector的large predictor的一样,但是只用来检测SR生成器的小proposals的超分特征。训练用分类回归损失。

2.3训练

  1. 首先训练基模型,包括CNN backbone,RPN,large predictor.
  2. 然后冻结CNN backbone,RPN,交替训练生成器和判别器,同时,small predictor也训练,使用进行分类回归损失。需要注意的是,用CNN backbone和large predictor的权重初始化SR target extractor 和small predictor.
  3. 一旦生成器和判别器收敛了,就微调small predictor和large predictor,冻结其它所有部分。微调small predictor有助于它关注分类和回归任务。Large predictor只通过大建议框微调。

2.4推理

在基模型上增加了SR feature generator和small predictor.输入图片I^{1.0},通过CNN backbone得到F^{1.0},如果建议框是大的,就送入large predictor进行分类回归,如果建议框是小的,就用SR feature generator得到超分辨率特征,再送入small predictor。 

3.实验

以faster rcnn为基模型,数据集Tsinghua-Tencent 100K(交通标志牌检测)、PASCAL VOC 和 MS COCO,在Tsinghua-Tencent 100K中定义小目标(小于32×32),PASCAL VOC 和 MS COCO中定义小目标(小于96×96)

(1)Tsinghua-Tencent 100K数据集

(2)PASCAL VOC 和 MS COCO

(3)可视化

(4)RRF

缺点(个人观点):

  1. 感受野匹配的做法只是增加网络的绝对感受野,没有通过严格的计算让低分特征和高分目标特征的相对感受野严格一致。
  2. 只适用于两阶段的检测器
  3. 训练过程繁琐
  4. 计算量增大(不知道增大多少,文章没有给出具体指标)

启发

  1. 小目标检测改进的一个思路->通过特征级的超分技术增强小目标的特征,本文是基于GAN训练超分辨网络,但是GAN训练繁杂且难收敛,是否可以考虑不用GAN,用其它方式训练超分辨率网络。
  2. 关注高分特征图和低分特征图的感受野匹配问题,对于小目标尤其敏感。
  3. 考虑将其思路用到一阶段检测器。

参考:基于GAN的小目标检测算法总结(3)——《Better to Follow, Follow to Be Better: Towards Precise Supervision ......》_ckq3的博客-CSDN博客

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值