目标检测论文学习——特征级超分辨率

摘要

        尽管最近基于提议的CNN模型在目标检测方面取得了成功,但由于小兴趣区域(RoI)所包含的信息有限且扭曲,仍然难以检测到小目标。缓解这一问题的一种方法是使用超分辨率(SR)技术增强小roi的特征。我们研究了如何提高特征级超分辨率,特别是对于小目标检测,并发现其性能可以通过(i)利用适当的高分辨率目标特征作为SR模型训练的监督信号,以及(ii)匹配输入低分辨率特征和目标高分辨率特征的训练对的相对接受域来显着提高。我们提出了一种新的特征级超分辨率方法,它不仅正确地解决了这两个需求,而且可以与任何基于特征池的基于提议的检测器集成。在我们的实验中,我们的方法显著提高了Faster R-CNN在清华腾讯100K、PASCAL VOC和MS COCO三个基准上的性能。对于小对象的改进是非常大的,令人鼓舞的是,对于中型和大型对象的改进也不是微不足道的。因此,我们在清华腾讯100K上取得了最先进的新性能,在PASCAL VOC和MS COCO上取得了极具竞争力的成果。

1 介绍

       自深度卷积神经网络(CNN)出现以来,目标检测方法的性能得到了迅速提高。目前主要有两种方法:基于两阶段提议的模型具有精度优势,而单阶段无提议模型具有速度优势。尽管近年来在目标检测方面取得了巨大的进步,但是在某些条件下,如小的、遮挡的或截断的目标检测仍然很困难。在这项工作中,我们专注于改进基于提议的检测框架中的小目标检测,如Faster R-CNN。

       基于建议的检测器从根本上面临着小目标的区域建议太小而无法识别的问题。例如,Huang等人表明,小对象的平均平均精度(mAP)分数大约比大对象低10倍。对于小型提案,感兴趣区域(RoI)池化层通常提取复制的特征向量作为框预测器的输入,最终在没有足够详细信息的情况下对小型对象进行预测。此外,RoI池特征的位置可能与其在图像中的实际位置不匹配。一些先进的池化技术,如RoI align和proroi池化,可以部分缓解RoI池化的这种失真。然而,它们并没有提供框预测器可以用来更好地检测小物体的额外信息。

      为了在小提案中丰富信息,一些先前的研究利用了图像的超分辨率[8,32,14]。由于对整个图像进行超分辨的效率严重低下,Bai等[1]提出将小提案的图像像素进行超分辨,使其与大提案相似。然而,它的RoI超分辨率只关注RoI,不能考虑上下文信息。这一缺点可以通过特征级超分辨率部分解决,该超分辨率利用上下文信息作为连续卷积操作的大接受域提取提案的特征。特别是,感知GAN[23]利用生成对抗网络(Generative Adversarial Networks, GAN)[12]来超解析提案的特征,并提高对小物体的检测精度。

       然而,现有的用于小目标检测的特征级超分辨率模型有一个明显的局限性:缺乏直接监督。也就是说,它们的超分辨率模型训练时没有明确的目标特征,导致训练不稳定,超分辨率特征的质量受到限制。对于图像检索任务,Tan等人[34]表明,低分辨率和高分辨率特征对之间的特征内容丢失导致了更好的超分辨率特征,收敛速度更快

      构建合适的高分辨率特征作为目标不仅对更好的训练很重要,我们的分析还表明,匹配对之间的相对接受野至关重要,特别是对于较小的roi(图1)。也就是说,在只考虑整体图像特征的[34]图像检索任务中,高分辨率和低分辨率特征对之间的相对接受野差别不大。另一方面,对于目标检测任务中常见的小roi,这种差异非常大,导致小提案的超分辨率质量很差。    

      在此背景下,本工作的贡献有三个方面:

      (1)我们彻底检查了现有的用于小目标检测的特征级超分辨率方法,并发现通过(i)利用高分辨率目标特征作为监督信号和(ii)匹配输入和目标特征的相对接受域,性能显着提高。

      (2)我们提出了一种新的特征级超分辨率方法,该方法正交适用于任何基于特征池的基于提议的检测器。它充分利用了我们的新目标提取器创建的高分辨率目标特征的直接监督,该目标提取器利用了属性卷积,不需要额外的参数,因为它与基础检测器的CNN主干共享参数。此外,我们提出了一种迭代细化生成器作为一种超分辨特征的新方法。

     (3)采用ResNet-50、ResNet-101[16]和MobileNet[17]等多种CNN骨干网,我们的方法显著提高了Faster R-CNN在清华-腾讯100K、PASCAL VOC和MS COCO三个基准数据集上的小目标检测性能。对于小对象的改进是非常大的,令人鼓舞的是,对于中型和大型对象的改进也不是微不足道的。因此,我们在清华-腾讯100K上取得了新的最先进的性能,在PASCAL VOC和MS COCO上取得了极具竞争力的结果。

2 相关工作

      本文综述了小目标检测的三个主要研究方向。

      高分辨率图像   小目标检测的一种直接方法是生成高分辨率图像作为检测模型的输入。Hu等人采用双线性插值获得两次上采样的输入图像,Fookes等人使用传统的超分辨率技术更好地识别人脸。然而,图像级超分辨率存在两个潜在问题。首先,超分辨率和检测模型往往是独立训练的;超分辨率模型经过训练,即使对于那些由于其独立性而对检测不重要的部分也能生成高分辨率图像。其次,整体架构可能过于沉重,因为它需要放大的超分辨率图像作为输入,这可能会大大增加推理时间。尽管Haris等人提出了一种联合训练超分辨率和检测模型的端到端模型,但对与检测任务无关的大部分图像执行超分辨率仍然效率低下。SOD-MTGAN[1]没有对整个图像进行超分辨,而是先将roi池化,然后使用这些池化的roi来训练超分辨模型。虽然他们的工作通过只关注roi解决了这两个问题,但它仍然没有考虑到roi的上下文信息。

     高分辨率特性   用于小目标检测的一个值得注意的特征级超分辨率方法是感知GAN。由于它只关注roi的特征,因此不会受到图像级超分辨率的两个问题的困扰。此外,由于特征是通过大接受野卷积提取的,因此也缓解了SOD-MTGAN的问题。然而,由于缺乏直接监督,其超分辨率训练可能不稳定;没有低分辨率RoI特征及其对应的高分辨率特征的训练对。相反,它隐含地利用了分类、定位和对抗损失。对于图像检索任务,Tan等人添加了基于特征的L2损失来训练特征级超分辨率模型。他们报告说,增加这种更强的约束有助于生成网络以更快的收敛速度产生更好的特征。然而,我们观察到中的这种直接监督对于目标检测是不够的,因为它可能会由于高分辨率和低分辨率特征之间的相对接受野的不匹配而误导超分辨率过程。在第3节中,我们将进一步阐述这个问题。

       上下文信息    许多研究经验证明,上下文信息也有助于检测小物体。cnn的顶层特征足以捕获大物体,但过于粗糙,无法检测小物体,而底层特征包含过于具体的局部信息,对检测大物体无用,但对检测小物体有用。因此,许多方法使用额外的层来从多个层构建上下文特征。另一种使用上下文的简单方法是在RoI汇集时也考虑附近的区域。Hu等人提取周围区域和roi来检测人脸,因为知道附近区域存在人体是有帮助的。还研究了对象之间的关系信息,以增强检测模型。最后,一些研究提出使用卷积和亚历克斯卷积层的混合来更好地分割小物体,因为亚历克斯卷积层覆盖了更大的接受场而不会损失分辨率。由于这一特点,我们还使用了亚属性卷积层来匹配高分辨率和低分辨率特征之间的相对接受域。第3节提供了更详细的解释。

3 相对接受野不匹配

      在本节中,我们讨论了为什么匹配相对接受域对于获得足够的低分辨率输入特征对和高分辨率目标特征对很重要。在此基础上,在下一节中,我们提出了一种新的超分辨率目标提取器。

     获得RoI对的一种直接方法是从原始图像中获取较大的RoI,并从下采样图像中获取较小的RoI。不幸的是,这些对的特征在相对接受域方面并不完全匹配。为了清楚地看到为什么会出现这种差异,我们在图2中给出了一个带有符号的直观示例。为方便讨论,仅考虑一条横轴,宽度为w的感兴趣区域特征的绝对接受野(绝对接受野)为

     相对接受野(RRF)定义为相对于图像IW大小的ARF,为

其中c = RW/D−1为常数。式(3)很容易由式(2)推导出来。

        由式(3)可知,当w趋于0时,DRRF收敛于2,随着w的增大,DRRF趋于1。也就是说,对于较小的RoI,相同RoI的相对接受野(RRF)在原始图像和下采样图像之间的差异可以达到×2。另一方面,如果提案的规模足够大,则rrf会变得相似。例如,对于IW = 1600的输入图像中w = 4的RoI,如果我们使用RW = 291, D = 16的ResNet-50主干的Faster R-CNN,则drrrf /2(4,1600)接近1.8。也就是说,下采样图像的RoI的RRF比原始图像的RRF大1.8倍左右。Tan等人[34]处理的是全图像特征超分辨的图像检索任务,因此RRF的差异不显著。相反,对于我们工作中用于检测的小roi的超分辨率,RRF的差异非常大,可能会严重误导超分辨率模型。 

4 我们的方法  

        我 们提出了一种新的方法来提高小目标检测的特征超分辨率质量,基于两个关键思想:(i)对超分辨率生成器的直接监督和(ii)通过亚特罗斯卷积的接受野匹配。我们在基本检测器模型的基础上引入了四个额外的组件:SR特征生成器和鉴别器,SR目标提取器和小型预测器。SR特征发生器是一种基于gan的模型,以SR目标提取器的特征为目标,在SR特征鉴别器的引导下产生高分辨率的特征。此外,小预测器是基本检测器中预测器的复制品,我们称之为大预测器。大型预测器计算大型提案的分类和定位置信度,就像在普通检测器中完成的那样,而小型预测器对首先由SR特征生成器增强的小型提案执行相同的任务。我们将小提案的阈值设置为(32×32)(清华-腾讯)和(96×96) (VOC和COCO数据集)。图3显示了我们模型的整体架构。我们解释了基于Faster R-CNN的模型,尽管我们的方法可以与任何具有特征pooling1的基于提议的检测器集成。

4.1 超分辨率目标提取器

        我们用I1.0表示原始输入图像,用I0.5表示其×0.5下采样图像。我们使用F1.0 i来表示原始图像的第i个RoI的特征。在第3节中,我们揭示了使用F1.0 i作为F0.5 i的超分辨率目标不是一个好主意。相反,我们需要提取合适的高分辨率目标特征,记为T1.0 i,其RRF与低分辨率特征F0.5 i相似。为此,我们引入了一个额外的CNN特征提取器——超分辨率目标提取器来生成T1.0 i,如图3所示。我们让SR目标提取器与CNN主干(即基础检测器中的正常特征提取器)共享相同的参数,因为它们不应该为相同的输入产生不同的通道特征。 

        对SR目标提取器的一个重要要求是在接收野扩展的每一层充分处理RRF。在常规cnn中,只要使用过滤器大小大于1的卷积层或池化层,接收域就会扩展。因此,我们的SR目标提取器应该被设计成在CNN主干中使用这两层中的任何一层时覆盖相同的扩展接受域。对于无参数池化层,可以通过增加过滤器大小来轻松实现。然而,对于卷积层,增加滤波器的大小是无效的,因为它使参数与CNN骨干网的参数不同。因此,我们采用非均匀(扩张)卷积层[3],它涉及与规则卷积层相同数量的参数,但其接受域由扩张率控制。我们在CNN主干上的每个滤波尺寸大于1的卷积层上应用膨胀率为2的非均匀卷积层。

         一个额外的治疗是针对跨步的。如图4(a)所示,如果CNN主干中卷积层的步幅不为1(例如2),那么简单地使用相同的步幅大小进行亚历斯卷积是无效的,因为它会跳过图4(b)所示的每隔一个像素。这个问题可以通过应用stride为1的attrous卷积,然后使用2的max pooling来解决,如图4(c)所示。

        综上所述,SR目标提取器由属性卷积和池化层组成,这些层的布置与CNN主干保持相同的RRF,同时共享相同的参数。来自SR目标提取器的特征T1.0 i比来自CNN主干的F1.0 i更适合训练超分辨率模型。此外,T1.0 i比F1.0 i覆盖更大的感受野;它们包含更多的上下文信息,可以用于更好地检测小对象。

4.2 超分辨率特征发生器

         我们的特征级超分辨率模型基于生成对抗网络(GAN)。它的最终目标是将小提案的集合特征F1.0 i转换为超分辨率特征S1.0 i。为了得到一对低分辨率和高分辨率的目标特征,我们首先在×0.5处对原始图像进行下采样,得到i- the proposal的F0.5 i,并将其与SR目标提取器生成的T1.0 i配对。也就是说,学习图5中的超分辨率特征生成器迭代地将F0.5 i细化为超分辨率特征S0.5 i,使S0.5 i尽可能与T1.0 i相似。为了达到这个目的,我们将特征内容l2损耗设计为

       

在这个过程中,我们同时使用前一层F0.5 sub,i(子层)和后一层F0.5 i(基础层)的特征作为生成器的输入。由于对于较小的RoI, F0.5 i只包含粗的、低频的信息,我们从前一层补充其细的、高频的信息F0.5 sub,i。

        对于SR特征鉴别器,我们使用了一个三层的多层感知器(MLP)。鉴别器被训练成能够区分T1.0 i和S0.5 i,而生成器被训练成将F0.5 i转换成与T1.0 i无法区分的S0.5 i。因此,产生器和鉴别器分别最小化 

        最后一点是,当我们为不同的损失构建低分辨率输入和高分辨率目标特征时,我们使用阈值。虽然不同的阈值用于不同的损失,但我们采用以下一般规则:如果高分辨率特征太小而不能作为目标,我们将其丢弃;如果低分辨率特征足够大而不需要超分辨率,我们将其丢弃。我们对不同的数据集应用不同的阈值,如第4节概述中所述。

        关于阈值的更详细的解释在补充材料中提供。到目前为止,我们已经讨论了生成器如何改进低分辨率特征F0.5 i,使其与目标特征T1.0 i相似。然而,我们的最终目标是更好地检测小物体;因此,我们需要训练生成器以一种确实有助于很好地检测小物体的方式来超分辨特征。为此,我们进一步对生成器进行如下训练。在生成器从F1.0 i产生超分辨率特征S1.0 i之后,我们将其输入到小框预测器中。然后,我们计算盒状预测器的分类损失(Lcls)和定位损失(Lloc),并将梯度信号流到生成器进行微调 

4.3 训练 

        首先训练基本检测器模型,该模型由特征提取器、区域建议网络(RPN)和大型预测器组成。然后,使用特征(F1.0 i, F0.5 i和T1.0 i)交替训练生成器和鉴别器,同时冻结特征提取器和RPN。生成器在生成器、内容、分类和定位损失加权和的指导下进行训练,而鉴别器只从鉴别器损失进行训练。与GAN结构一起,使用来自分类和定位损失的超分辨特征S1.0 i同时训练小预测器。注意,我们分别使用特征提取器和基本检测器的大预测器的权重初始化SR目标提取器和小预测器

        一旦生成器和鉴别器收敛,我们进一步微调大小预测器,同时冻结所有其他预测器。微调对于小型预测器是有用的,因为它只在可能与目标特征不完全相同的超分辨率特征上进行训练。通过只关注分类和定位损失,它还有助于进一步提高性能。大型预测器只对大型提案进行微调,因为小型提案的特征不再传递给它。 

4.4  推理

         一旦训练完成,推理就简单多了。我们只在基本模型上使用SR特征生成器和小预测器,这对应于图3中的主要预测部分。给定输入图像I1.0,我们从CNN主干F1.0中获得特征。如果特征提案很大,那么大的预测器将利用它对其类别和位置进行预测。另一方面,如果特征建议很小,则首先使用SR特征生成器进行超解析,并将其传递给小预测器。

5  实验

我们在三个基准数据集清华-腾讯100K[38]、PASCAL VOC和MS COCO上评估了我们的方法在Faster R-CNN作为各种骨干网(ResNet-50、ResNet-101和MobileNet)的基础网络上的性能。我们在补充文件中给出了更多的实验结果和分析。

5.1 清华腾讯100K的结果

 5.2 PASCAL VOC和MS COCO测定结果

 

5.3 超分辨率方法的比较 

 5.4 定性结果

        图7显示了一些选定的检测结果。对于每一对,我们显示了基础检测器(左)和我们的方法(右)的结果。与基本模型相比,我们的方法可以更好地检测小目标,置信度更高。我们在补充文件中提供了更多的定性结果,包括近靶失效案例。

6 结论 

        我们提出了一种新的特征级超分辨率方法来改进基于提议的小目标检测框架。我们的方法适用于任何具有特征池的基于提议的检测器。在清华-腾讯100K、PASCAL VOC和MS COCO基准上的实验验证了我们的超分辨率方法对小目标的检测确实是有效的。特别是,我们的工作证明了使用适当的高分辨率目标特征提供直接监督的重要性,这些特征与低分辨率输入特征共享相同的相对接受野。在未来的工作中,我们的模型可以通过几种方式进一步增强。首先,我们可以采用图像超分辨率任务中开发的最新模型来更新SR特征生成器。第二,自适应选择超分辨率。虽然我们在这项工作中只使用了2的固定比率,但最佳比率可能取决于Rois的特性。     

  • 14
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值