End-to-End Object Detection with Fully Convolutional Network论文翻译

最新推荐文章于 2024-09-05 02:24:42 发布

Laughing-q

最新推荐文章于 2024-09-05 02:24:42 发布

阅读量1.9k

点赞数 3

分类专栏：论文阅读文章标签：计算机视觉神经网络深度学习

本文链接：https://blog.csdn.net/Q1u1NG/article/details/110877866

版权

End-to-End Object Detection with Fully Convolutional Network论文翻译

代码地址：https://github.com/Megvii-BaseDetection/DeFCN
论文地址：https://arxiv.org/pdf/2012.03544.pdf
作者知乎解析：https://zhuanlan.zhihu.com/p/332281368

摘要

主流的基于全卷积网络的目标检测器已经取得了令人瞩目的性能。虽然他们中的大多数仍然需要手工设计的非最大抑制(NMS)后处理，这阻碍了完全端到端训练。在本文中，我们给出了丢弃NMS的分析，结果表明适当的标签分配起着至关重要的作用。为此，对于全卷积检测器，我们引入了一个 Prediction-aware one-to-one(POTO)标签分配分类，以实现端到端检测，其性能与使用NMS相当。此外，还提出了一种简单的 3D Max Filtering(3DMF)方法，利用多尺度特征，提高卷积在局部区域的识别能力。通过这些技术，我们的端到端框架在COCO和CrowdHuman数据集上获得了与许多先进的检测器相比具有竞争力的性能。
在这里插入图片描述

1.介绍

目标检测是计算机视觉中的一个基本课题，它为每幅图像预测一组带有预定义类别标签的边界框。大多数主流检测器[8,20,26,49]利用一些手工设计，如基于锚的标签分配和非最大抑制(NMS)。最近，人们提出了很多方法[42,52,5]，通过使用 距离感知和基于分布的标签分配 来消除预定义的锚框集合。尽管它们取得了显著的进步和卓越的性能，但仍然存在着放弃手工设计的NMS后处理的挑战，这阻碍了完全端到端训练。
为了解决这个问题，提出了Learnable NMS[11]，Soft-NMS [1]和CenterNet[5]来改善重复去除，但仍然没有提供有效的端到端训练策略 。与此同时，许多基于递归神经网络的方法[39,31,23,28,32]被引入使用自回归解码器来预测每个实例的边界框。这些方法为边界框的预测提供了自然的顺序建模。但这种方法只在一些小的数据集上进行评估，没有采用现代的检测器，迭代的方法使得推理过程效率低下。
最近，DETR[3]引入了一种基于二匹配的训练策略和有并行解码器的transformers，以实现端到端检测。它实现了竞争性能相对于许多最先进的检测器。然而，目前DETR的训练时间长得多，覆盖范围小，性能相对较低。为此，本文探索了一个新的视角：全卷积网络能否实现竞争性端到端目标检测？
在本文中，我们试图从两个维度来回答这个问题，即标签分配和网络架构。如图1所示，大部分的全卷积检测器[20, 42, 46, 19]采用one-to-many的标签分配规则，也就是说对于一个GT，采用多个预测作为前景采样。该规则提供了足够的前景样本，以获得强大和鲁棒的特征表示。然而，大量的前景样本会导致对单个实例重复预测框，从而阻止端到端检测。为了证明这一点，我们首先给出了一个经验比较不同的现有的手工设计标签分配。我们发现，单标签分配在消除重复去除的后处理中起着至关重要的作用。然而，手工设计的one-to-one分配仍有一个缺点。固定的赋值会导致模糊问题，降低特征的可区分性，因为实例的预定义区域可能不是[14]进行训练的最佳选择。为了解决这一问题，我们提出了一种基于预测感知的一对一(POTO)标签分配方法，该方法根据分类质量和回归质量同时动态分配前景样本。
此外，对于现代基于FPN的[42]检测器，广泛的实验表明，重复边界框主要来自邻近尺度上最可靠预测的邻近区域。因此，我们设计了一个3D Max Filtering(3DMF)，它可以作为可微模块嵌入FPN头中。该模块通过使用一个简单的3D Max Filtering算子跨相邻尺度，提高了局部区域卷积的判别能力。此外，为了对特征表示学习提供足够的监督，我们修改了one-to-many分配作为辅助损失。
通过提出的技术，我们的端到端检测框架实现了与许多先进的检测器竞争的性能。在COCO[21]数据集上，我们基于FCOS框架[42]和ResNeXt-101[45]骨干的端到端检测器的性能比使用NMS时的基线高出1.1%。此外，我们的端到端检测器在拥挤检测中具有更强的鲁棒性和灵活性。为了证明该算法在拥挤场景中的优越性，我们在CrowdHuman[33]数据集上构建了更多的实验。在ResNet-50主干网下，我们的端到端检测器相比于有NMS的FCOS基准实现了3.1% AP50和5.6% mMR的绝对收益。

2.相关工作

2.1 全卷积目标检测器

由于卷积网络的成功[10,36,37,35,18,47]，目标检测在过去的十年中取得了巨大的进步。现代的one-stage检测器[20,22,27,34]或two-stage检测器[29,19,2]严重依赖锚或基于锚的方案。在这些检测器中，锚定框由预定义的滑动窗口组成，它们被分配为带有边框偏移的前景或背景采样。由于是手工设计和数据独立的锚点，基于锚的检测器的训练目标通常是次优的，需要仔细调整超参数。最近，FCOS[42]和CornerNet[16]引入了一个无锚框架，为全卷积检测器提供了一个不同的视角。这些方法提供了更简单、更灵活的检测管道和较少的手工超参数，进一步证明了在一些具有挑战性的数据集上的有效性。然而，这些框架仍然需要手工设计的消除重复的后处理步骤，即非最大抑制(NMS)。由于NMS是一种启发式方法，并对所有实例采用一个恒定的阈值，因此需要仔细调优它，而且可能不够健壮，特别是在拥挤的场景中。与此相反，本文在无锚框架的基础上，提出了一个prediction-aware one-to-one分配规则来丢弃不可训练的NMS。

2.2 端到端的目标检测

为了实现端到端检测，在之前的文献中探索了很多方法。具体地说，在早期的研究中，许多基于递归神经网络的检测框架[39,31,23,28,32]都试图直接生成一组边界框。尽管它们原则上允许端到端学习，但它们只在一些小数据集上被证明有效，而不与现代基线相对抗[42,7]。同时，提出了一种可学习的NMS[11]，通过使用非常复杂的深度网络来学习重复删除，其性能与NMS相当。但它是由离散组件构成的，并没有给出一个有效的解决方案来实现端到端训练。最近，relation network[12]和DETR[3]将注意机制应用到目标检测中，建立了不同预测之间的成对关系。通过使用one-to-one分配规则和直接设置损失，他们不需要任何额外的后处理步骤。然而，在进行大规模预测时，这些方法需要很高的成本，这使得它们不适合密集预测框架。由于缺乏图像先验和多尺度融合机制，DETR的训练时间也比主流检测器长，对小目标的性能也较低。与上述方法不同，我们的方法是第一个实现基于全卷积网络的端到端目标检测的方法。

3.方法

3.1 标签分配的分析

在这里插入图片描述
为了揭示标签分配对端到端目标检测的影响，我们构建了几个COCO[21]数据集常规标签分配的消融研究。如表1所示，所有的实验都基于FCOS[42]框架，去掉了该框架的centerness，实现了head-to-head的比较。结果证明了 one-to-many分配在特征表示上的优越性和 one-to-one分配在丢弃NMS上的潜力。详细的分析将在下面的章节中进行阐述。

3.1.1 One-to-many标签分配

由于NMS后处理在稠密预测框架中被广泛采用[19,20,52,48,42,46]，One-to-many的标签分配成为分配训练目标的传统方式。充分的前景样本可以得到强而鲁棒的特征表示。然而，当丢弃NMS时，由于One-to-many标签分配的冗余前景样本，重复的FP预测可能会导致性能显著下降，例如，在FCOS[20]基线上28.4%的mAP绝对下降。因此，检测器仅依靠One-to-many分配很难实现竞争性端到端检测。

3.1.2 手工设计的One-to-one标签分配

MultiBox[41]和YOLO[26]展示了应用One-to-one标签分配到稠密预测框架的潜力。在本文中，我们评估了两个One-to-one标签分配规则来揭示正在进行的与丢弃NMS的联系。这些规则由两个广泛使用的one-to-many标签赋值来修改：锚规则和中心规则。具体来说，锚点规则基于RetinaNet[20]，每个ground-truth实例只分配给相交过并最大的锚点(IoU)。中心规则基于FCOS[42]，每个groundtruth实例只分配给预定义特征层中最接近实例中心的像素。除此之外，其他锚点或像素设置为背景样本。
如表1所示，与one-to-many标签分配相比，one-to-one标签分配使得无NMS的全卷积检测器可以大大减小有NMS与无NMS的差距，达到合理的性能。例如，基于中心规则的检测器在FCOS基线上获得21.5%的map绝对增益。同时，避免了NMS在复杂场景下的错误抑制，进一步提高了召回率。然而，仍然存在两个尚未解决的问题。首先，当应用one-to-one标签分配时