End-to-End Object Detection with Fully Convolutional Network 阅读笔记

最新推荐文章于 2022-12-23 16:55:15 发布

qq_40056173

最新推荐文章于 2022-12-23 16:55:15 发布

阅读量1.4k

点赞数 3

分类专栏：兔兔图的目标检测论文阅读文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/qq_40056173/article/details/111086360

版权

兔兔图的目标检测论文阅读专栏收录该内容

1 篇文章 0 订阅

订阅专栏

End-to-End Object Detection with Fully Convolutional Network 阅读笔记

一. 出发点

主流目标检测算法dense predict需要人工设计的NMS后处理，使之不能成为完全的端到端算法。本文通过分析发现one-to-many（分别指GT和Prediction）的label assignment是导致模型依赖NMS的关键。适当的标签分配策略即one-to-one对于模型抛弃NMS起着决定性的作用。因此本文的两大主要工作/贡献：

1）对于全卷积检测器，用于分类的prediction-aware one-to-one assignment（POTO)标签分配策略被提出，以实现端到端检测，并且可以实现与NMS相近的性能表现；

2）提出3D Max Filtering (3DMF)，利用多尺度特征提高卷积在局部区域的鉴别能力。

本文提出的端到端模型在COCO和CrowdHuman数据集上获得了与许多SOTA检测器相比具有竞争力的性能。

二. 背景介绍

主流的一阶段或者两阶段检测器严重依赖预定义的由滑动窗组成的anchor。由于anchor是人工设计和不依赖数据的，anchor-based检测器的训练目标通常是次优的，需要仔细调整超参数。

CenterNet和FCOS通过距离感知或者基于分布的标签分布策略来实现anchor-free，虽然网络结构更简单、更灵活并且含有较少的人工设计的超参数也能取得优异的性能表现，但还是无法抛弃人工设计的NMS后处理，无法成为真正的end-to-end模型。

Learnable NMS，Soft-NMS和CenterNet做了很多工作去除重复预测，但仍然没有实现彻底的端到端训练。由于NMS是一种启发式方法，并对所有实例采用一个恒定的阈值，因此NMS需要仔细调优阈值，而且可能不够鲁棒，影响密集目标的检测性能。

许多基于递归神经网络的方法引入自解码器来预测每个目标的边界框。但只在一些小的数据集上进行评估，没有基于最新的检测器，迭代的方法使得推理过程效率十分低下。

最近，DETR引入了transformer以实现端到端检测。虽然实现了与最新检测器可以竞争的性能，但由于DETR缺少图像先验和多尺度特征融合机制，其训练时间长，覆盖范围小，小目标性能差。

本文研究的问题就是：全卷积网络能否实现真正的端到端目标检测并取得竞争性的实验结果？本文通过标签分配策略和网络结构两个方面解决问题。

在这里插入图片描述
如虚线框所示，大部分基于全卷积网络的检测器对每个真实目标进行很多预测并进行NMS后处理。虽然one-to-many提供了充足前景获得强大且鲁棒的特征表示。但是大量前景导致对于同一个真实目标预测许多box，使end-to-end成为不可能（必须依赖NMS得到最终结果）。
在这里插入图片描述当丢弃NMS时，由于One-to-many标签分配策略产生的冗余前景样本，重复预测使虚警大增，可能会导致性能显著下降。例如，在FCOS基线上28.4%的mAP下降。one-to-one标签分配使得全卷积检测器可以大大减小有NMS与无NMS的性能差距，所以one-to-one标签分配策略在去除NMS起着至关重要的作用。然而，人工设计的one-to-one分配采用固定的标签分配策略，当选择与GT匹配的唯一前景不是有利于训练的最佳选择时，会导致模型训练目标模糊并降低特征的鉴别能力。具体表现就是网络的收敛会更困难，也会导致更多的虚警。总结尚未解决的问题：

1）当应用one-to-one标签分配时，有NMS和没有NMS的检测器之间的性能差距仍然不可忽略。

2）由于对每个真实目标的监督较少，one-to-one标签分配策略的性能仍然不如FCOS基线。

三. 本文方法

本文提出了一种基于predict-aware的one-to-one(POTO)标签分配方法，同时考虑分类质量和回归质量动态分配前景样本。基于FPN检测器的大量实验证明：重复预测主要来自于邻近尺度上置信度最高预测的邻域。因此，本文设计了一个3D Max Filtering(3DMF)作为可微模块嵌入FPN头中。该模块通过跨尺度的3D Max Filtering算子，提高了卷积在局部区域的鉴别能力。此外，为了对特征表示学习提供足够的监督，我们修改了one-to-many分配策略作为辅助损失。

3.1 Prediction-aware One-to-one
训练损失如Eq. 1，由前景的分类和回归损失加背景的分类损失得到。为了实现性能优异的端到端检测，需要找到合适的标签分配方法。
在这里插入图片描述
如Eq. 2所示，以往的工作利用前景损失作为匹配代价，将其视为二部图匹配问题，利用匈牙利算法快速解决该问题：
借用SSD来理解二部图匹配策略与匈牙利算法：

1）建图。对于某个预测框，遍历所有的gt_bbox，如果它们的交集大于0，那么就用一条边把gt_bbox与预测框连接起来；这样对所有的预测框都进行同样操作。如果把所有gt_bbox放入集合A，所有预测框放入集合B，那么这一步就是建立A与B之间的二部图，二部图中边的权值为预测框与gt_bbox的iou分数。（这里的权值就是上文的匹配代价）

2）匹配。匹配分为2个阶段：

第一个阶段：找出二部图中的边权值最大的边，并该边对应的gt_bbox与预测框从顶点集中删除；反复进行这个过程，直到所有的gt_bbox都找到匹配的预测框；

第二个阶段：如果匹配的类型是BIPARTITE，那么匹配过程已结束；如果匹配类型是PER_PREDICTION，表示对于每个预测框，都要找到一个gt_bbox与之匹配，那么对于第一阶段未匹配上的预测框，从gt_bboxes集合中找到与它所连边中权值最大的gt_bbox作为它的匹配。

第一个阶段的匹配保证每个gt_bbox都至少有一个预测框与之匹配，这是因为预测框足够多，必定有许多预测框与gt_bbox建立边连接，且每个预测框都有0个或1个gt_bbox与之匹配。第二个阶段的匹配如果采用PER_PREDICTION方法，那么每个预测框都有且只有1个gt_bbox与之匹配了，但是gt_bbox可能匹配上多个预测框。

前景损失通常需要额外的权重，如不平衡的训练样本和多任务的联合训练。如表1所示，该属性使得训练损失不是匹配代价中的最优选择。因此，如Eq. 3和Eq. 4所示，我们提出一个更简洁和有效的公式(POTO)来找到一个更好的分配策略。
在这里插入图片描述

在这里，Qi,π(i) ∈ [0, 1]表示提出的第i个GT与第i个预测的匹配质量。同时考虑空间先验、分类的置信度和回归的质量。Ωi表示第i个GT的候选预测集，即空间先验。为了达到平衡，我们用Eq.4中的分类分数pˆπ(i)(ci)和回归质量IoU(bi,bˆπ(i))的加权几何平均值来定义质量。超参数α∈[0,1]调整了分类与回归之间的比例。如表1所示，POTO不仅缩小了与NMS之间的差距，而且改善了性能。

3.2 3D Max Filtering

如表2所示，对于基于FPN的检测器，当分别将NMS应用到每个尺度时，性能有明显的下降。此外，我们发现重复预测主要来自最可能预测的邻近空间区域。因此，我们提出了一个名为3D Max Filtering (3DMF)的新模块来抑制重复预测。
在这里插入图片描述

**卷积是一种具有平移不变性的线性运算，它在不同位置对相似的图形产生相似的输出。**但是，这个属性在消除重复预测方面有很大的障碍，因为对于dense predict检测器来说，对同一个GT的不同预测通常具有类似的特性。Max filter是一种基于排序的非线性滤波器，它可以用于补偿卷积在局部区域的鉴别能力。但是目前的max filter只考虑了单尺度特征，这不适用于目前广泛使用的基于FPN的检测器。因此，本文将max filter扩展到一个多尺度的版本，称为3D max filter，它将FPN的各个尺度的特征进行变换。在feature map的每个通道上分别采用3D Max滤波。
在这里插入图片描述
如Eq. 5所示，给定FPN的尺度s中的一个输入特征xs，首先采用双线性算子对τ相邻尺度的相邻特征插值到与输入xs相同的尺度。

如Eq. 6所示，对于s尺度下的空间位置i，在预先定义的三维中，根据比例τ尺度和φ × φ的空间距离，得到ysi的最大值。这个操作可以通过高效的3D max-pooling运算符轻松实现。
在这里插入图片描述
此外，为了将3D Max Filtering嵌入到现有框架中，实现端到端训练，本文提出了一个新的模块，如图3所示。该模块利用max滤波选择局部区域中激活函数值最高的预测，可以增强与其他预测的区别，在第4.2.1节进一步验证。由于这一特性，如图2所示，采用3DMF来细化粗密集预测，并抑制重复预测。所有的模块都由简单的可微算子构造，计算开销很小。

3.3 Auxiliary Loss

此外，在使用NMS时，如表1所示，POTO和3DMF的性能仍然低于FCOS基线。这可能是由于one-to-one的标签分配提供了较少的监督，使得网络难以学习到强而鲁棒的特征表示,进一步降低分类的鉴别能力，从而导致性能的下降。为此，本文引入了一个基于one-to-many的标签分配来提供充足的监督，如图2所示。
在这里插入图片描述
与ATSS相似，辅助损失采用了改进的one-to-many标签分配的focal loss。one-to-many标签分配首先根据Eq. 4中提出的匹配质量，在每个FPN阶段将前9个预测作为候选。然后将匹配质量超过统计阈值的候选样本作为前景样本分配。统计阈值由所有候选匹配质量的均值和标准差的总和计算。
在这里插入图片描述
如表9所示，结果证明了我们提出的预测感知质量函数比手工设计的匹配指标的优越性。与标准的ATSS框架相比，基于质量可获得1.3%的绝对收益。

四. 实验结果

4.1 可视化

图4展示了来自FCOS基线和本文所提议的框架的分类分数的可视化。对于单个GT，one-to-many分配规则的FCOS基线输出大量重复的预测。这些重复的预测被评估为虚警，并极大地影响性能。相比之下，通过使用POTO规则，重复样本的分数得到了显著的抑制。这个特性对于检测器在不使用NMS的情况下实现直接的边界框预测至关重要。此外，通过提出的3DMF模块，该属性得到了进一步增强，特别是在最可能预测的附近区域。此外，由于3DMF模块引入了多尺度竞争机制，检测器可以很好地跨不同FPN阶段进行独特的预测，如图4，一个GT在不同尺度具有单个高分类分数的。
在这里插入图片描述
4.2 Prediction-Aware One-to-One

空间先验. 如表3所示，在分配的空间范围上，中心采样策略在COCO数据集上相对优于inside box和global。它反映了图像的先验知识在现实场景中是必不可少的。
在这里插入图片描述
分类 vs 回归. 如Eq. 4所示，超参数近似控制了分类与回归之间的重要性。如表3所示，当α = 1时，与NMS的差距并没有缩小。这可能是由于分类和回归的最佳位置不一致造成的。当α = 0时，分配规则只依赖于预测的分类分数。在这种情况下，与NMS的差距得到了很大的消除，但其绝对性能仍然不能令人满意，这可能是由于初始化过拟合不理想造成的。通过分类质量与回归质量的适当融合，可显著提高性能。

质量函数. 我们进一步探讨了不同分类和回归融合方法对质量函数的影响。如表4所示，名为“Add”的方法用代替了原始的质量函数，其形式与相似。然而，我们发现乘法融合（Mul）更适合于端到端检测，它比加法融合方法获得了0.7%的mAP绝对增益。
在这里插入图片描述
4.3 3D Max Filtering

组件. 如表5所示，在没有NMS后处理的情况下，带有POTO的端到端检测器相比普通FCOS实现了19.0%的map绝对增益。通过使用提议的3DMF，性能进一步提高了1.8% mAP，与NMS的差距缩小到0.2% mAP。如图4所示，结果显示了多尺度和局部距离抑制对于端到端目标检测的关键作用。提出的辅助损失提供了足够的监督，使检测器获得了与NMS的FCOS竞争的性能。
在这里插入图片描述
端到端. 为了证明端到端训练方法的优越性，将CenterNet的2D Max滤波替换为3D Max Filtering作为新的去除重复预测的后处理方法。在FCOS检测器上进一步采用了这种后处理方法。如表5所示，端到端的方式获得了1.1%的显著绝对增益。

核大小. 如表6所示，评估了3DMF中空间范围的不同设置。当取值为3和取值为2时，我们的方法在COCO数据集上获得了最高的性能。这一现象反映了重复预测主要来自邻近尺度的局部区域，与3.2.2节的观察相似。
在这里插入图片描述
性能和训练时间. 如图5(a)所示，在一开始，端到端检测器在COCO val set上的性能不如使用NMS的检测器。随着训练的进行，性能的差距变得越来越小。经过180k的迭代训练，本文方法最终优于NMS的其他检测器。这种现象在CrowdHuman val set上也会发生，如图5©所示。此外，由于去掉了手工设计的后处理，图5(b)显示了我们的方法相对于基于NMS的方法在召回率方面的优越性。
在这里插入图片描述

4.4 Larger Backbone

为了进一步证明本文方法的鲁棒性和有效性，进行大backbone的实验。具体结果见表7。具体地说，当使用ResNet-101作为主干时，本文方法略低于FCOS0.3% mAP。但当引入更强的backbone，即可变形卷积的ResNeXt-101时，本文端到端检测器相对于使用NMS的FCOS实现了1.1%的map绝对增益。这可能归因于可变形卷积的灵活空间建模。此外，提出的3DMF是有效的和容易实现。如表7所示，相对于使用NMS的基线检测器，我们的3DMF模块只有轻微的计算开销。
在这里插入图片描述

4.5 在CrowdHuman上的实验

在CrowdHuman数据集上评估本文模型，这是一个具有各种遮挡的大型人体检测数据集。与COCO dataset相比，CrowdHuman的场景更加复杂和拥挤，给传统的重复预测抑制带来了严峻的挑战。本文端到端检测器在拥挤的场景中更加健壮和灵活。如表8和图5所示，本文方法显著优于几种最先进的基于NMS检测器，例如，相对于FCOS的3.1% mAP和5.6% mMR绝对增益。此外，我们的方法的召回率甚至优于使用NMS的GT。
在这里插入图片描述

五. 结论

为了弥补全卷积网络与端到端目标检测之间的差距，本文提出了一种基于predict-aware one-to-one标签分配策略和3D Max Filtering 方法。在引入辅助损失的情况下，本文端到端框架在COCO和CrowdHuman数据集上使用NMS实现了比许多先进检测器更优越的性能。在复杂拥挤的场景中也显示了巨大的潜力，这可能有利于许多其他实例级任务。附录的检测对比图，如图6所示，在有目标重叠情况下，带有NMS的FCOS确实是会去掉一些预测正确的框，而留下一些虚警，而论文提出的方法在此方面有较好的效果；
在这里插入图片描述
如图7所示，论文中的方法能够得到更少的重叠框。

https://blog.csdn.net/CHIERYU/article/details/80329344?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522160767686219724839553037%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=160767686219724839553037&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2_allfirst_rank_v2~rank_v29-8-80329344.first_rank_v2_pc_rank_v29&utm_term=bipartite%20matching%20problem&spm=1018.2118.3001.4449

https://blog.csdn.net/Q1u1NG/article/details/110877866?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522160778356519195265137138%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=160778356519195265137138&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2_allbaidu_landing_v2~default-3-110877866.nonecase&utm_term=End-to-End%20Object%20Detection%20with%20Fully%20Convolutional%20Network&spm=1018.2118.3001.4449