End-to-End Object Detection with Fully Convolutional Network论文翻译

代码地址:https://github.com/Megvii-BaseDetection/DeFCN
论文地址:https://arxiv.org/pdf/2012.03544.pdf
作者知乎解析:https://zhuanlan.zhihu.com/p/332281368

摘要

主流的基于全卷积网络的目标检测器已经取得了令人瞩目的性能。虽然他们中的大多数仍然需要手工设计的非最大抑制(NMS)后处理,这阻碍了完全端到端训练。在本文中,我们给出了丢弃NMS的分析,结果表明适当的标签分配起着至关重要的作用。为此,对于全卷积检测器,我们引入了一个 Prediction-aware one-to-one(POTO)标签分配分类,以实现端到端检测,其性能与使用NMS相当。此外,还提出了一种简单的 3D Max Filtering(3DMF)方法,利用多尺度特征,提高卷积在局部区域的识别能力。通过这些技术,我们的端到端框架在COCO和CrowdHuman数据集上获得了与许多先进的检测器相比具有竞争力的性能。
在这里插入图片描述

1.介绍

目标检测是计算机视觉中的一个基本课题,它为每幅图像预测一组带有预定义类别标签的边界框。大多数主流检测器[8,20,26,49]利用一些手工设计,如基于锚的标签分配和非最大抑制(NMS)。最近,人们提出了很多方法[42,52,5],通过使用 距离感知和基于分布的标签分配 来消除预定义的锚框集合。尽管它们取得了显著的进步和卓越的性能,但仍然存在着放弃手工设计的NMS后处理的挑战,这阻碍了完全端到端训练。
为了解决这个问题,提出了Learnable NMS[11],Soft-NMS [1]和CenterNet[5]来改善重复去除,但仍然没有提供有效的端到端训练策略 。与此同时,许多基于递归神经网络的方法[39,31,23,28,32]被引入使用自回归解码器来预测每个实例的边界框。这些方法为边界框的预测提供了自然的顺序建模。但这种方法只在一些小的数据集上进行评估,没有采用现代的检测器,迭代的方法使得推理过程效率低下。
最近,DETR[3]引入了一种基于二匹配的训练策略和有并行解码器的transformers,以实现端到端检测。它实现了竞争性能相对于许多最先进的检测器。然而,目前DETR的训练时间长得多,覆盖范围小,性能相对较低。为此,本文探索了一个新的视角:全卷积网络能否实现竞争性端到端目标检测?
在本文中,我们试图从两个维度来回答这个问题,即标签分配和网络架构。如图1所示,大部分的全卷积检测器[20, 42, 46, 19]采用one-to-many的标签分配规则,也就是说对于一个GT,采用多个预测作为前景采样。该规则提供了足够的前景样本,以获得强大和鲁棒的特征表示。然而,大量的前景样本会导致对单个实例重复预测框,从而阻止端到端检测。为了证明这一点,我们首先给出了一个经验比较不同的现有的手工设计标签分配。我们发现,单标签分配在消除重复去除的后处理中起着至关重要的作用。然而,手工设计的one-to-one分配仍有一个缺点。固定的赋值会导致模糊问题,降低特征的可区分性,因为实例的预定义区域可能不是[14]进行训练的最佳选择为了解决这一问题,我们提出了一种基于预测感知的一对一(POTO)标签分配方法,该方法根据分类质量和回归质量同时动态分配前景样本。
此外,对于现代基于FPN的[42]检测器,广泛的实验表明,重复边界框主要来自邻近尺度上最可靠预测的邻近区域。因此,我们设计了一个3D Max Filtering(3DMF),它可以作为可微模块嵌入FPN头中。该模块通过使用一个简单的3D Max Filtering算子跨相邻尺度,提高了局部区域卷积的判别能力。此外,为了对特征表示学习提供足够的监督,我们修改了one-to-many分配作为辅助损失
通过提出的技术,我们的端到端检测框架实现了与许多先进的检测器竞争的性能。在COCO[21]数据集上,我们基于FCOS框架[42]和ResNeXt-101[45]骨干的端到端检测器的性能比使用NMS时的基线高出1.1%。此外,我们的端到端检测器在拥挤检测中具有更强的鲁棒性和灵活性。为了证明该算法在拥挤场景中的优越性,我们在CrowdHuman[33]数据集上构建了更多的实验。在ResNet-50主干网下,我们的端到端检测器相比于有NMS的FCOS基准实现了3.1% AP50和5.6% mMR的绝对收益。

2.相关工作

2.1 全卷积目标检测器

由于卷积网络的成功[10,36,37,35,18,47],目标检测在过去的十年中取得了巨大的进步。现代的one-stage检测器[20,22,27,34]或two-stage检测器[29,19,2]严重依赖锚或基于锚的方案。在这些检测器中,锚定框由预定义的滑动窗口组成,它们被分配为带有边框偏移的前景或背景采样。由于是手工设计和数据独立的锚点,基于锚的检测器的训练目标通常是次优的,需要仔细调整超参数。最近,FCOS[42]和CornerNet[16]引入了一个无锚框架,为全卷积检测器提供了一个不同的视角。这些方法提供了更简单、更灵活的检测管道和较少的手工超参数,进一步证明了在一些具有挑战性的数据集上的有效性。然而,这些框架仍然需要手工设计的消除重复的后处理步骤,即非最大抑制(NMS)。由于NMS是一种启发式方法,并对所有实例采用一个恒定的阈值,因此需要仔细调优它,而且可能不够健壮,特别是在拥挤的场景中。与此相反,本文在无锚框架的基础上,提出了一个prediction-aware one-to-one分配规则来丢弃不可训练的NMS。

2.2 端到端的目标检测

为了实现端到端检测,在之前的文献中探索了很多方法。具体地说,在早期的研究中,许多基于递归神经网络的检测框架[39,31,23,28,32]都试图直接生成一组边界框。尽管它们原则上允许端到端学习,但它们只在一些小数据集上被证明有效,而不与现代基线相对抗[42,7]。同时,提出了一种可学习的NMS[11],通过使用非常复杂的深度网络来学习重复删除,其性能与NMS相当。但它是由离散组件构成的,并没有给出一个有效的解决方案来实现端到端训练。最近,relation network[12]和DETR[3]将注意机制应用到目标检测中,建立了不同预测之间的成对关系。通过使用one-to-one分配规则和直接设置损失,他们不需要任何额外的后处理步骤。然而,在进行大规模预测时,这些方法需要很高的成本,这使得它们不适合密集预测框架。由于缺乏图像先验和多尺度融合机制,DETR的训练时间也比主流检测器长,对小目标的性能也较低。与上述方法不同,我们的方法是第一个实现基于全卷积网络的端到端目标检测的方法。

3.方法

3.1 标签分配的分析

在这里插入图片描述
为了揭示标签分配对端到端目标检测的影响,我们构建了几个COCO[21]数据集常规标签分配的消融研究。如表1所示,所有的实验都基于FCOS[42]框架,去掉了该框架的centerness,实现了head-to-head的比较。结果证明了 one-to-many分配在特征表示上的优越性和 one-to-one分配在丢弃NMS上的潜力。详细的分析将在下面的章节中进行阐述。

3.1.1 One-to-many标签分配

由于NMS后处理在稠密预测框架中被广泛采用[19,20,52,48,42,46],One-to-many的标签分配成为分配训练目标的传统方式。充分的前景样本可以得到强而鲁棒的特征表示。然而,当丢弃NMS时,由于One-to-many标签分配的冗余前景样本,重复的FP预测可能会导致性能显著下降,例如,在FCOS[20]基线上28.4%的mAP绝对下降。因此,检测器仅依靠One-to-many分配很难实现竞争性端到端检测。

3.1.2 手工设计的One-to-one标签分配

MultiBox[41]和YOLO[26]展示了应用One-to-one标签分配到稠密预测框架的潜力。在本文中,我们评估了两个One-to-one标签分配规则来揭示正在进行的与丢弃NMS的联系。这些规则由两个广泛使用的one-to-many标签赋值来修改:锚规则和中心规则。具体来说,锚点规则基于RetinaNet[20],每个ground-truth实例只分配给相交过并最大的锚点(IoU)。中心规则基于FCOS[42],每个groundtruth实例只分配给预定义特征层中最接近实例中心的像素 。除此之外,其他锚点或像素设置为背景样本。
如表1所示,与one-to-many标签分配相比,one-to-one标签分配使得无NMS的全卷积检测器可以大大减小有NMS与无NMS的差距,达到合理的性能。例如,基于中心规则的检测器在FCOS基线上获得21.5%的map绝对增益。同时,避免了NMS在复杂场景下的错误抑制,进一步提高了召回率。然而,仍然存在两个尚未解决的问题。首先,当应用one-to-one标签分配时

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值