【目标检测论文阅读笔记】Better to Follow, Follow to Be Better: Towards Precise Supervision of Feature Super-Reso

Better to Follow, Follow to Be Better: Towards Precise Supervision of Feature Super-Resolution for Small Object Detection

Abstract

        尽管最近基于proposal的 CNN 模型在目标检测方面取得了成功,但由于小的感兴趣区域 (RoI) 包含的信息有限且失真,仍然很难检测到小目标缓解此问题的一种方法是使用超分辨率 (SR) 技术增强小 RoI 的特征。我们研究了如何提高特征级的超分辨率,特别是对于小目标检测,发现其性能可以通过i)利用适当的高分辨率目标特征作为 SR 模型训练的监督信号 (ii)匹配输入的低分辨率特征 和 目标高分辨率特征训练对 的相对感受野。我们提出了一种新颖的特征级超分辨率方法,它不仅可以正确解决这两个问题,而且可以与任何具有特征池化的基于proposal的检测器集成。在我们的实验中,我们的方法显著提高了 Faster R-CNN 在 Tsinghua-Tencent 100K、PASCAL VOC 和 MS COCO 三个基准上的性能。小目标的改进非常大,令人鼓舞的是,中型和大型目标的改进也很重要。因此,我们在 Tsinghua-Tencent 100K 上取得了新的最先进的性能,并在 PASCAL VOC 和 MS COCO 上取得了极具竞争力的结果。


1. Introduction

        自深度卷积神经网络 (CNN) 出现以来,目标检测方法的性能得到了迅速提升。有两种主要方法:具有准确性优势的两阶段的基于proposal的模型 [11、10、31、5] 和 具有速度优势的单阶段无proposal模型 [29、27、30、9]。尽管最近在目标检测方面取得了巨大的进步,但是在某些情况下仍然很难检测到目标,例如小的、被遮挡的或被截断的。在这项工作中,我们专注于改进基于proposal的检测框架(例如 Faster R-CNN [31])中的小目标检测

        基于proposal的检测器从根本上面临着 小目标的区域建议太小而无法识别 的问题。例如,Huang等[21 Speed/Accuracy Trade-offs for Modern Convolutional Object Detectors]表明,小目标的平均平均精度(mAP)分数大约比大目标低10倍。对于小型proposals,感兴趣区域(RoI)池化层 通常提取重复的特征向量作为框预测器的输入,最终在没有足够详细信息的情况下 对小型目标进行预测。此外,RoI池化特征的位置可能与其在图像中的实际位置不匹配[20]。一些先进的池化技术,如 RoI align [15]和 PrRoI池化[22],可以 部分缓解RoI池化的这种失真。然而,它们没有提供 框预测器 可以用来更好地检测小目标的额外信息

        为了在小的proposals中丰富信息,一些先前的研究利用了图像的超分辨率[8,32,14]。由于对整个图像进行超分辨的效率严重低下,Bai等[1]提出对小图像的像素进行超分辨,使其与大图像像素相似。然而,它的RoI超分辨率只关注RoI,不能考虑上下文信息。这一缺点可以通过 特征级超分辨率 部分地解决,特征级超分辨率 由于proposals的特征是 通过连续卷积操作的大感受域提取出来的 利用了上下文信息。特别是,感知GAN[23] 利用 生成对抗网络(Generative Adversarial Networks, GAN)[12] 来超分辨proposals的特征,并提高对小目标的检测精度。

        然而,现有的用于小目标检测的特征级超分辨率模型有一个明显的局限性:缺乏直接监督。也就是说,它们的超分辨率模型训练时没有明确的目标特征,导致训练不稳定超分辨率特征的质量受到限制。对于图像检索任务,Tan等[34]表明,低分辨率和高分辨率特征对之间的特征内容损失 导致了更好的超分辨率特征和更快的收敛速度

        不仅 构建合适的高分辨率特征作为目标 对更好的训练很重要,我们的分析还表明,匹配对之间的相对感受野 至关重要,特别是对于较小的RoIs (图1)。也就是说,在只考虑整体图像特征的[34]图像检索任务中,高分辨率和低分辨率特征对之间的相对感受野差别不大。另一方面,对于目标检测任务中常见的小RoIs,这种差异非常大,导致小proposals的超分辨率质量很差

        在此背景下,本工作的贡献有三个方面:

(1) 我们彻底检查了现有的用于小目标检测的特征级超分辨率方法,并发现通过(i) 利用高分辨率目标特征作为监督信号 和 (ii)匹配输入和目标特征的相对感受野,性能显著提高

(2)我们提出了一种新的特征级超分辨率方法,该方法 正交适用于任何基于特征池化的基于proposal的检测器。它充分利用了我们的新目标提取器创建的高分辨率目标特征的直接监督,该目标提取器 利用了空洞卷积,不需要额外的参数,因为它与基础检测器的CNN主干共享参数。此外,我们提出了一种 迭代优化生成器 作为超分辨特征的新方法

(3)采用ResNet-50、ResNet-101[16]和MobileNet[17]等多种CNN骨干网,我们的方法显著提高了Faster R-CNN在清华-腾讯100K[38]、PASCAL VOC[6]和MS COCO[26]三个基准数据集上的小目标检测性能。对于小目标的改进是非常大的,令人鼓舞的是,对于中型和大型对象的改进也不是微不足道的。因此,我们在清华-腾讯100K上取得了新的最先进的性能,在PASCAL VOC和MS COCO上取得了极具竞争力的结果。


2. Related Work

        本文综述了小目标检测的三个主要研究方向。

高分辨率图像。

        小目标检测的一种直接方法是生成高分辨率图像作为检测模型的输入。Hu等[19]使用双线性插值获得两次上采样的输入图像,Fookes等[8]使用传统的超分辨率技术更好地识别人脸。然而,图像级超分辨率存在两个潜在问题。首先,超分辨率和检测模型往往是独立训练;超分辨率模型经过训练,由于其独立性,即使对于 那些而对检测不重要的部分 也能生成高分辨率图像。其次,整体架构可能过于沉重,因为它需要放大的超分辨率图像作为输入,这可能会大大增加推理时间。虽然 Haris等人[14] 提出了一种端到端模型,联合训练超分辨率和检测模型,但 对图像的与检测任务无关的大部分 执行超分辨率 仍然效率低下。SOD-MTGAN[1]没有对整个图像进行超分辨,而是先将 RoIs池化,然后使用这些池化的RoIs 来训练超分辨模型。虽然他们的工作通过只关注RoIs解决了这两个问题,但它仍然没有考虑到RoIs的上下文信息


高分辨率特征。

        一种值得注意的用于小目标检测的特征级超分辨率方法是 感知Perceptual GAN [23]。由于它只关注 RoIs 的特征,因此不会遇到图像级超分辨率的两个问题。此外,由于特征是通过具有大感受野的卷积提取的,SOD-MTGAN [1] 的问题也得到了缓解。然而,由于缺乏直接监督,其超分辨率训练可能不稳定;没有低分辨率 RoI 特征及其对应的高分辨率特征的训练对。相反,它隐含地利用了分类、定位和对抗性损失。对于图像检索任务,Tan 等人 [34] 添加了特征级 L2 损失来训练特征级超分辨率模型。他们报告说,添加这种更强的约束有助于生成网络以更快的收敛速度产生更好的特征。然而,我们观察到 [34] 中的这种直接监督不足以进行目标检测,因为它可能会由于高分辨率和低分辨率特征之间的相对感受野不匹配而误导超分辨率过程。在第 3 节中,我们进一步阐述了这个问题。


上下文信息

        许多研究已经通过经验证明 上下文信息也有助于检测小目标。正如 [27] 中所证明的,CNN 顶层的特征足以捕获大目标 但太粗糙而无法检测小目标,而底层的特征包含过于具体的局部信息,这对检测大物体没有用但对小物体很有用。因此,许多方法 [2、33、25、9、35] 使用额外的层从多层构建上下文特征另一种使用上下文的简单方法是在 RoI 池化时也考虑附近区域。 Hu 等人 [19] 提取周围区域以及 RoI 来检测人脸,因为知道附近区域是否存在人体是有帮助的。还研究了目标之间的关系信息以增强检测模型 [18、7、4]。最后,一些研究 [3, 36, 37, 13] 建议混合使用卷积和空洞卷积层来更好地分割小目标,因为空洞卷积层覆盖更大的感受野而不会损失分辨率。由于这个特性,我们还使用空洞卷积层来匹配高分辨率和低分辨率特征之间的相对感受野。第 3 节提供了更详细的解释。


3. 相对感受野的不匹配

        在本节中,我们将讨论为什么匹配相对感受野对于获得足够的低分辨率输入特征和高分辨率目标特征对很重要。基于此讨论,在下一节中,我们提出了我们新颖的超分辨率目标提取器。

        获得对的一种直接方法是从原始图像中获取较大的 RoI,并从下采样图像中获取较小的 RoI [34]。不幸的是,这些对的特征在相对感受野方面并不完全匹配。为了清楚地了解为什么会出现这种差异,我们在图 2 中给出了一个带有符号的直观示例。为便于讨论,仅考虑一个水平轴,宽度为w的RoI特征的绝对感受野(ARF)

相对感受野 (RRF),定义为 ARF 相对于图像 IW 的大小,是

        让我们讨论 RRF 在输入图像调整大小时有何不同。在×0.5下采样的输入图像中,图像的宽度为IW/2,特征图上RoI的宽度为w/2。我们将原始图像和下采样图像之间 RoI 的 RRF (DRRF) 差异定义为,

其中 c = RW /D − 1 是常数。方程(3)很容易从方程(2)推导出来。

        根据式(3),当w趋近于0时,DRRF收敛于2,而随着w的增加趋于1。也就是说,对于小的 RoI,相同 RoI 的相对感受野 (RRF) 在原始图像和下采样图像之间可以相差 2 倍。另一方面,如果proposal的大小足够大,则 RRF 会变得相似。例如,对于来自 IW = 1600 的输入图像的 w = 4 的 RoI,如果我们使用 Faster R-CNN 和 ResNet-50 主干,其中 RW = 291 和 D = 16,则 DRRF1/2(4, 1600) 是接近 1.8。也就是说,下采样图像的 RoI 的 RRF 大约是原始图像的 1.8 倍。 Tan 等人 [34] 处理图像检索任务,其中整个图像特征被超分辨,因此 RRF 的差异并不显著。相反,对于我们工作中用于检测的小 RoI 的超分辨率,RRF 中的差异非常大,它会严重误导超分辨率模型


4. Our Approach

        我们基于两个关键思想 提出了一种提高小目标检测特征超分辨率质量的新方法(i)对超分辨率生成器的直接监督 和(ii)通过空洞卷积进行感受野匹配。我们在基本检测器模型之上引入了四个附加组件:SR 特征生成器 和 鉴别器、SR 目标提取器 和小型预测器。作为基于 GAN 的模型,SR 特征生成器在 SR 特征鉴别器的指导下 使用 SR 目标提取器的特征 作为目标 生成高分辨率特征。此外,小预测器是基本检测器中预测器的复制品,我们称之为大预测器。大型预测器计算大型proposals的分类和定位置信度,就像在普通检测器中所做的那样,而小型预测器首先 对由 SR 特征生成器 增强的小型proposals 执行相同的任务。我们将小proposals的阈值设置为 Tsinghua-Tencent的(32×32)和 VOC 和 COCO 数据集的(96×96)。图 3 显示了我们模型的整体架构。我们解释了基于 Faster R-CNN [31] 的模型,尽管我们的方法可以与任何具有特征池的基于建议的检测器集成1。


4.1.超分辨率目标提取器

        我们用 I1.0 表示原始输入图像,用 I0.5 表示它的×0.5 下采样图像。我们使用 表示原始图像中第 i 个 RoI 的特征。在第 3 节中,我们揭示了使用 作为 的超分辨率目标并不是一个好主意。相反,我们需要提取由 表示的适当的高分辨率目标特征,它具有与低分辨率特征 相似的 RRF。为此,我们引入了一个名为 超分辨率目标提取器 的附加 CNN 特征提取器来生成 ,如图 3 所示。我们让 SR 目标提取器与 CNN 主干(即基础检测器中的正常特征提取器)共享相同的参数,因为它们不应该为相同的输入按通道产生不同的特征。

        SR 目标提取器的一个重要要求是 充分处理感受野扩大的每一层的RRF。在常规 CNN 中,只要应用filter大小大于 1 的卷积层或池化层,感受野就会扩展。因此,我们的 SR 目标提取器应该设计为在 CNN 主干中使用这些层中的任何一层时覆盖相同的扩展感受野。对于无参数的池化层,可以通过增加过滤器大小轻松实现。然而,对于卷积层,增加filter大小是无效的,因为它会使参数与 CNN 主干的参数不同。因此,我们采用 atrous(膨胀)卷积层 [3],它涉及与常规卷积层相同数量的参数,而其感受野由膨胀率控制我们在 CNN 主干上的filter大小大于 1 的每个卷积层应用膨胀率为 2 的空洞卷积层

        一种额外的方法是 stride步长。如图 4(a) 所示,如果 CNN 骨干中卷积层的步幅不是 1(例如 2),则简单地对空洞卷积使用相同的步幅大小是无效的,因为它会跳过所有其他像素,如中所示图 4(b)。这个问题可以通过应用步长为 1 的空洞卷积然后使用步长为 2 的最大池化来解决,如图 4(c) 所示。

        总而言之,SR 目标提取器由空洞卷积和池化层组成,这些层被安排为在共享相同参数的同时保持与 CNN 主干相同的 RRF。来自 SR 目标提取器的特征比来自 CNN 主干的 更适合训练超分辨率模型。此外,覆盖更大的感受野;它们包含更多上下文信息,可用于更好地检测小目标


4.2.超分辨率特征生成器

        我们的特征级超分辨率模型基于生成对抗网络 (GAN) [12]。它的最终目标是将小proposals的池化特征 转换为超分辨特征 。为了制作一对低分辨率和高分辨率的目标特征,我们首先以×0.5 对原始图像进行下采样,得到第 i 个proposal的 并 将其与从 SR 目标提取器生成的 配对。也就是说,图 5 中的超分辨率特征生成器被学习以迭代方式将细化为超分辨率特征 以便 尽可能类似于 。为此,我们将 特征级内容 l2 损失设计为,

        在此过程中,作为生成器的输入,我们同时使用前一层 (子层)和后一层 (基础层)的特征。由于 只包含小 RoI 的粗略和低频信息,我们从前一层补充 的精细和高频信息

        对于 SR 特征鉴别器,我们 使用 具有三层的多层感知器 (MLP)。鉴别器被训练为能够区分 ,而 生成器被训练为将 转换为与 无法区分的 。因此,生成器和鉴别器分别最小化,

        最后一点是,当我们为不同的损失 构造 低分辨率输入 和 高分辨率目标特征时,我们使用阈值。尽管不同的阈值用于不同的损失,但我们应用以下一般规则;如果高分辨率特征太小而不能用作目标,我们将其丢弃;如果低分辨率特征足够大以至于不需要超分辨率,我们将丢弃它们。我们对第 4 节概述中指定的不同数据集应用不同的阈值。补充材料中提供了关于阈值的更详细解释。

        到目前为止,我们已经讨论了生成器如何将低分辨率特征 细化为与目标特征 Ti1.0 相似。然而,我们的最终目标是更好地检测小物体;因此,我们 需要训练生成器 以一种确实有助于很好地检测小目标的方式来超分辨特征。为此,我们进一步训练生成器如下。生成器从 Fi1.0 生成超分辨特征 Si1.0 后,我们将其输入到小边界框预测器。然后,我们像[31]中那样计算 边界框预测器的分类损失(Lcls)和 定位损失(Lloc),并将梯度信号输入到生成器进行微调。


4.3. Training

        我们首先训练基础检测器模型,该模型由特征提取器、区域生成网络 (RPN) 和 大的预测器组成。然后,生成器和鉴别器交替使用特征(Fi1.0 、Fi0.5 和 Ti1.0 )进行训练,同时冻结特征提取器和 RPN生成器在生成器、内容、分类和定位损失的加权和的指导下进行训练,而鉴别器仅根据鉴别器损失进行训练。与 GAN 结构一起,使用来自分类和定位损失的超分辨特征 Si1.0 同时训练小型预测器。请注意,我们分别使用特征提取器的权重和基本检测器的大预测器来初始化 SR 目标提取器和小预测器

        一旦生成器和鉴别器收敛,我们进一步微调小型和大型预测器,同时冻结所有其他部分。微调对小型预测器很有用,因为它仅针对可能与目标特征不完全相同的超分辨特征进行训练。它还通过仅关注分类和定位损失来帮助进一步提高性能。大型预测器仅针对大型proposals进行微调,因为不再将小型proposals的特征传递给它。


4.4.推理

        一旦训练完成,推理就简单多了。我们仅在基本模型之上使用 SR 特征生成器和小预测器,对应于图 3 中的主要预测部分。给定输入图像 I1.0,我们从 CNN 主干 F1.0 获得特征。如果特征proposal很大,大预测器会用它来预测它的类别和位置。另一方面,如果特征proposal很小,则首先使用 SR 特征生成器对其进行超分辨,然后将其传递给小预测器


5. Experiments

        我们在Tsinghua-Tencent 100K [38] 、PASCAL VOC [6] 和 MS COCO [26] 三个基准数据集上 评估我们的方法在 Faster R-CNN [31] 作为具有各种骨干网(ResNet-50、ResNet-101 [16] 和 MobileNet [17])的基础网络上的性能。我们在补充文件中提供了更多的实验结果和分析。


5.1. Results on Tsinghua-Tencent 100K

        Tsinghua-Tencent 100K [38] 是一个关于因天气和复杂背景引起的严重照度变化的交通标志的大型基准。它提供了现实世界中的交通标志数据集,其中目标对象的大小与图像大小(2048×2048)相比非常小。该数据集有 6K 训练图像和 3K 测试图像。它按照与 MS COCO [26] 相同的方式根据大小划分数据,分为小(面积≤32×32),中(32×32 <面积≤96×96)和大(面积> 96) × 96) 物体。小型、中型和大型物体的部分分别为 (42, 50, 8)%。由于小物体的存在占主导地位,Tsinghua-Tencent 100K 是验证小目标检测性能的最佳基准之一

Evaluation measures.

        按照 [38] 的协议,我们评估了 45 个类,其中包括 182 个类中的 100 多个实例。虽然 [38] 中仅报告了大小方面的召回率和准确性,但我们还报告了 F1 分数,因为它们可以平衡这两个指标。如果与真值的 IoU 大于或等于 0.5,则检测被视为正确。

Quantitative results.

        我们将模型的性能与先前指定的具有三个主干的基本模型进行了比较。我们将proposals的大小阈值设置为 32×32;只有面积小于阈值的proposals才会被视为超分辨率模型的输入。

        表 1 总结了Tsinghua-Tencent100K 测试数据集的性能。我们将输入图像的大小从 2048 调整为 1600,以加快学习和推理速度,如 [23] 中所述。我们的方法的性能改进在小对象(ResNet-101 的 F1 分数为 75.2→84.3)、中对象(92.2→94.6)和大对象(92.2→93.2)的顺序上是显著的。对于不同的 CNN 主干,小对象的大改进是一致的,例如 MobileNet 的 63.4→71.0 和 ResNet-50 的 74.9→82.2。

        有一点是,虽然我们只对小的proposals进行超分辨,但我们也获得了中型和大型物体的性能增益。这可能是因为大型预测器在微调时没有考虑小型proposals,这有助于将其建模能力集中在中型和大型对象上。改进中等子集的另一个原因是 一些最终落入中等子集中的proposals 是使用小预测器预测的,这是由于在最后一步中添加到proposals 中的偏移量。鉴于大约 14% 的对象总数在 32 × 32 和 40 × 40 之间,这可能是解释中等子集性能提升的一个正当理由。

与最先进的方法进行比较。

        表 2 显示我们提出的模型在清华-腾讯 100K 数据集上实现了新的最先进的性能。在这些实验中,我们使用 ResNet-101 作为具有原始大小的图像的主干来训练我们的模型。在所有子集中,我们的模型优于所有以前的最先进模型,尤其是在 F1 分数方面


5.2. Results on PASCAL VOC and MS COCO

        我们还在 PASCAL VOC [6] 和 MS COCO [26] 上评估了我们的模型,尽管这些基准中小物体的比例远低于清华-腾讯 100K。PASCAL VOC 由 20 个对象类别组成,2007 年有 5K trainval 和 5K 测试图像,2012 年有 11K trainval 图像。我们使用 2007 trainval + 2012 trainval 进行训练,使用 2007 测试集进行测试。 MS COCO 2017 包含 80 个对象类别,包含 115K train、5K val 和 20K testdev 图像。我们使用 train 集进行训练,使用 val 和 test-dev 集进行测试。我们还在补充材料中展示了关于验证集的结果。

Evaluation measures.

        对于 PASCAL VOC,我们使用 mAP@.5 指标,当与 groundtruth 的匹配 IoU 阈值大于或等于 0.5 时,它是所有类别的平均 AP。对于 MS COCO,我们使用 mAP@.5:.95,它是从 0.5 到 0.95 的不同匹配 IoU 阈值的平均 mAP。我们还根据目标大小将 PASCAL VOC 上的结果分为三个不同的类别;小型 (AP-S)、中型 (AP-M) 和大型 (AP-L),与 MS COCO 一样。我们将小建议的阈值设置为 96 × 96,因为对象大小比清华-腾讯 100K 大得多。

Quantitative results.

        表 3 将我们模型的性能与 VOC 2007 测试和 COCO 2017 测试开发的基线进行了比较。我们观察到与清华腾讯 100K 类似的趋势,检测增强按小、中、大对象的顺序更为显著。


5.3.超分辨率方法的比较

        在本节中,我们进行了一项消融研究,以定量和定性地分析不同的超分辨率方法。我们使用 ResNet-50 作为 CNN 主干。我们将我们的超分辨率方法与两个较差的变体进行比较(1) 没有监督的 SR:没有内容损失 (Lcont) 的模型  (2) 有简单监督的 SR:使用来自基本特征提取器而不是我们的 SR 目标提取器的目标特征训练的模型。

        表4比较了不同超分辨率模型在清华-腾讯100K上的F1分数。与基本模型相比,其他两个 SR 变体仅获得有限的性能提升。另一方面,我们的 SR 模型实现了显着的性能提升,尤其是对于小子集。这里的一个评论是没有监督的 SR 比有简单监督的 SR 表现更好,这意味着由于 RRF 不匹配导致的不当监督会降低性能。图 6 定性地可视化了我们的模型在特征级超分辨率方面优于使用简单监督方法的 SR


5.4. Qualitative Results

        图 7 说明了一些选定的检测结果。对于每一对,我们展示了基础检测器(左)和我们的方法(右)的结果。与基础模型相比,我们的方法可以更高的置信度更好地检测小物体。我们在补充文件中提供了更多定性结果,包括近乎失败的失败案例。


6. Conclusion

        我们提出了一种新的特征级超分辨率方法 来改进基于proposal的检测框架的小目标检测。我们的方法适用于任何具有特征池化的基于proposal的检测器。在清华-腾讯 100K、PASCAL VOC 和 MS COCO 基准测试上的实验验证了我们的超分辨率方法确实可以有效检测小目标。特别是,我们的工作证明,使用适当的高分辨率目标特征提供直接监督非常重要,这些目标特征与低分辨率输入特征共享相同的相对感受野

        作为未来的工作,我们的模型可以通过几种方式进一步增强。首先,我们可以通过采用在图像超分辨率任务中开发的最先进模型来更新 SR 特征生成器。其次,可以自适应地选择超分辨率。虽然我们在这项工作中只使用了固定比率 2,但最佳比率可能取决于 RoI 的特性

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值