Relation DETR：探索显式的位置先验关系在目标检测中的作用

最新推荐文章于 2025-03-07 14:02:35 发布

ronghuaiyang

最新推荐文章于 2025-03-07 14:02:35 发布

阅读量3.3k

点赞数 19

文章标签：目标检测人工智能计算机视觉

本文链接：https://blog.csdn.net/u011984148/article/details/141736139

版权

导读

在DETR中加入位置关系先验，在相同的配置下，Relation-DETR相比于DINO实现了显著的性能提升（+2.0% AP），并在COCO val2017上达到了最先进的性能（1×设置下达到51.7% AP，2×设置下达到52.1% AP），并且具有更快的收敛速度（仅训练2个周期即可达到超过40% AP）。

摘要

本文提出了一种增强DETR（DEtection TRansformer）收敛性和性能的一般性方案。我们从一个新的角度探讨了Transformer中的缓慢收敛问题，指出这一问题源于自注意力机制在输入上没有引入结构偏差。为了解决这个问题，我们研究了将位置关系先验作为注意力偏差纳入的方法，并通过我们提出的定量宏观相关性(MC)度量验证了其统计意义的重要性。我们的方法称为Relation-DETR，引入了一个编码器来构建位置关系嵌入以实现注意力的逐步优化，进而将传统的DETR流水线扩展为对比关系流水线，以解决非重复预测与正样本监督之间的冲突。在通用和特定任务的数据集上的大量实验表明了我们方法的有效性。在相同的配置下，Relation-DETR相比于DINO实现了显著的性能提升（+2.0% AP），并在COCO val2017上达到了最先进的性能（1×设置下达到51.7% AP，2×设置下达到52.1% AP），并且具有更快的收敛速度（仅训练2个周期即可达到超过40% AP）。此外，所提出的关联编码器作为一种通用的即插即用组件，对理论上任何类似DETR的方法都有明显的改进效果。此外，我们还介绍了一个类无关的检测数据集SA-Det-100k。在该数据集上的实验结果表明，所提出的位置关系明确性实现了1.3% AP的明显提升，突显了其在通用物体检测方面的潜力。代码和数据集可在https://github.com/xiuqhou/Relation-DETR获取。

1 引言

物体检测旨在解决每个感兴趣物体的边界框回归及物体分类问题。最近，DEtection TRansformer (DETR)已经克服了对卷积检测器手工设计的依赖，以端到端的方式实现了优雅的架构设计。尽管在诸如COCO这样的大规模数据集上展现了令人印象深刻的检测性能，但它们的表现容易受到数据集规模的影响，并且存在收敛缓慢的问题。问题的根本原因在于非重复预测与正样本监督之间的冲突。在训练过程中，DETR采用匈牙利算法为每个真实值分配一个单一的正向预测，以产生唯一的结果。然而，这导致负向预测主导了损失函数的大部分，从而造成正向监督不足。因此，需要更多的样本和迭代来进行收敛。之前的尝试通过引入训练专用架构（例如查询去噪、多组查询、辅助查询、协同混合分配训练）来提供额外的监督，或是在损失函数中加入难例挖掘（例如 IA-BCE 损失、位置监督损失）。其他工作则提出了针对查询和特征图之间更好交互的具体结构（例如动态锚点查询、级联窗口注意力），以及专注于高质量查询的技术（例如分层过滤、密集区分过程和查询排序层）。尽管有了这些进展，但从广泛应用于大多数DETR检测器中的Transformer解码器的自注意力的角度来探索此问题的研究却很少。

自注意力的有效性在于它在序列嵌入之间建立了高维的关系表示，这也是用于建模不同检测特征表示之间关系的关键组成部分。但是，这种关系是一种隐式表示，因为它假设输入上没有任何结构偏置，甚至位置信息也需要从训练数据中学习。因此，Transformer的学习过程数据密集且收敛缓慢。基于这一分析，我们被激励着引入特定于任务的偏置以实现更快的收敛并减少对数据的依赖。

在本文中，我们从一个新的视角，即显式位置关系先验，来探索增强DETR探测器的方法。首先，我们建立了一个量化图像中位置关系的度量，并分析分布以验证其统计重要性。在此背景下，我们引入了一个位置关系编码器来模拟两个边界框之间的所有两两交互，并利用逐步注意力细化来进行跨层信息交互。为了保持端到端特性的同时提供充足的正向监督，我们引入了一种对比关系策略，该策略利用一对一和一对多匹配，同时强调位置关系在消除重复预测方面的影响。我们提出的方法被称为Relation-DETR。

与之前的工作相比，Relation-DETR的主要特点在于融合了显式的位置关系。相比之下，先前的工作侧重于从训练数据中隐式地学习注意力权重，导致收敛缓慢。直观地说，我们所提出的位置关系可以被视为一种有益于非重复预测的即插即用设计，因为它建立了边界框对之间相对位置的表示（类似于NMS中的IoU）。

我们在最流行的物体检测数据集COCO 2017以及几个特定任务的数据集上评估了Relation-DETR的性能。实验结果证明了其优越的性能，明显超越了先前的最先进的DETR探测器。更具体地说，Relation-DETR表现出显著快速的收敛速度。无需过多的技巧，它成为了第一个在1×训练配置下仅使用2个周期及ResNet50作为主干网络就能在COCO上达到40% AP的DETR探测器。此外，我们位置关系编码器的简单架构设计保持了良好的可迁移性。它可以通过少量修改轻松扩展到其他基于DETR的方法，以实现一致的性能提升。这与一些现有的DETR探测器形成了对比，后者的性能高度依赖于复杂的匹配策略或由基于卷积的探测器开发的检测头。

2 相关工作

Transformer在物体检测中的应用 实践中，将Transformer应用于物体检测的多数尝试涉及构建并行化序列，无论是特征提取器还是检测主体。具体而言，基于Transformer的特征提取器基于图像块生成token序列，并通过聚合局部特征或金字塔后处理提取多尺度特征。Carion等人提出的DEtection TRansformer (DETR) 将提取的特征编码成物体查询，并将其解码为检测到的边界框和标签。然而，自学习的注意力机制增加了对大规模数据集和训练迭代的需求。许多工作从结构化注意力的角度探索了缓慢收敛的问题（例如多尺度可变形注意力、动态注意力、级联窗口注意力），具有明确先验的查询（例如锚点查询、动态锚点框查询、去噪查询、密集区分查询），以及额外的正向监督（例如群组查询、混合设计、混合匹配）。然而，即使是最先进的DETR方法仍然在Transformer解码器中使用标准的多头注意力。很少有工作从隐式先验的角度探索缓慢收敛的问题。本文旨在通过位置关系来解决这个问题。

关系网络 相比于在像素级别、图像块级别或整幅图像级别处理视觉特征，关系网络捕捉实例级别的关系特征。现有对于关系网络的研究包括基于类别的方法和基于实例的方法。基于类别的方法从像Visual Genome这样的关系数据集中构建概念性或统计性的关系（如共现概率），或是从类别标签中自适应学习。然而，这两种方法都因为实例和类别之间的赋值而增加了复杂性。相比之下，基于实例的方法直接给定一组物体特征作为节点集合，以及它们之间的关系作为边集合，从而构造出精细的图结构。因此，在训练过程中对图进行推理自然确定了明确的关系权重。通常情况下，权重表示高维空间中每对物体实例之间的参数距离，例如外观相似度、提议距离甚至是自注意力权重。由于仅从训练数据中学习自注意力权重而不引入结构性偏置会增加对数据集规模和迭代次数的要求，我们探索显式位置关系作为一种先验来降低这一要求。

针对难例挖掘的分类损失 在物体检测训练过程中，分配给真实值的正向预测远少于负向预测，常常导致监督不平衡和收敛缓慢。对于分类任务，Focal Loss 提出引入一个权重参数来关注难例样本，这一方法进一步扩展为多种变体，如generalized focal loss (GFL) 、vari focal loss (VFL) 。此外，对于物体检测任务，使用基于回归度量的调制项损失（例如TOOD、IA-BCE、位置监督损失）进一步实现了分类和回归任务之间的高质量对齐。

3 物体位置关系的统计显著性

物体在物体检测任务中真的存在关联吗？为了回答这个问题，我们提出了一种基于皮尔逊相关系数 (PCC) 的定量宏观关联 (MC) 指标，用于衡量单个图像中物体间的位置关联。假设一幅图像中的物体形成一个节点集，每对边界框注释之间的PCC作为它们对应的边权重。我们可以构建一个连续值的无向图。这样，每张图像的宏观关联可以通过图形强度计算得出，其公式为：

其中 N 表示物体的数量，也就是节点的数量；b=[x,y,w,h]表示数据集中边界框的位置注释，其中x和y分别表示边界框左上角的坐标，w和 h分别表示宽度和高度。当所有物体完全线性相关时，MC=1，而当任意两个物体之间不存在位置相关性时，MC=0。

我们可视化了不同场景下数据集的 MC 统计分布，这些场景包括工业场景、家庭场景、城市场景以及通用场景。这些数据集覆盖了从 0.3K 到 11M 图像的不同规模。如图 1 所示，所有这些数据集表明 MC 的分布集中在较高的数值范围内，分布中心接近上限。这证明了物体位置关系的存在及其统计显著性。具体来说，特定任务的数据集在高维特征空间中展示出更多的先验知识和更清晰的聚类模式，因此其 MC 值高于如 COCO 这样的通用数据集。

4 Relation-DETR

鉴于位置关系的统计显著性，我们提出了一种最先进的检测器，名为 Relation-DETR，该检测器通过探索显式的位置关系先验来增强目标检测。为了应对收敛速度慢的问题，我们提出了一个位置关系编码器（第 4.1 节），用于逐步改进注意力（第 4.2 节）。进一步地，在第 4.3 节中，我们将 DETR 的流水线扩展为对比流水线，以强调位置关系在去除重复的同时保持足够的正向监督，从而实现更快的收敛。

4.1 位置关系编码器

先前的研究已经证明了关系对于卷积检测器的有效性。最近，一些DETR方法试图通过类别级关系使用类别索引来构建实例级关系。与这些方法不同的是，我们直接通过一个简单的位置编码器来构建实例级关系，从而保持了DETR的端到端设计。

我们首先回顾DETR检测器的基本流程。给定由主干网络提取的图像特征，Transformer编码器生成一个增强的记忆，进一步解码为边界框和类别标签作为预测结果。每个解码层通过预测相对于上一层坐标的变化量来迭代地细化边界框坐标，这一过程被称为迭代边界框细化。此外，所有解码层的预测均参与损失计算，以计算辅助解码损失。

在上述检测框架下，我们的位置关系编码器将高维关系嵌入表示为Transformer自注意力中的显式先验。该嵌入基于从每一解码层预测的边界框（记作来计算。为了确保关系对平移和尺度变换具有不变性，我们基于归一化的相对几何特征对其进行编码：

我们的位置关系是无偏的，即当 i = j时，有。关系矩阵（其中）进一步通过正弦余弦编码转换为高维嵌入。

其中关系嵌入的形状为，而 T, , s是编码参数。最后，该嵌入经过线性变换以获得M个标量权重，这里M表示注意力头的数量。

其中确保了关系有一个正值，以避免在整合到自注意力机制中时经过指数运算后梯度消失的问题，且。

4.2 通过位置关系进行渐进式注意力细化

由可变形DETR提出的迭代框细化方法已经证明了其对于高质量边界框回归的有效性。基于这一动机，我们提出了一种渐进式注意力细化方法，用于将位置关系引入到DETR的流水线中。具体来说，第i层的关系是由第i-1层和第i层的边界框共同确定的，并进一步整合到自注意力中以生成第i+1层的边界框。

其中表示 DETR 变换器中第 l 个解码器层中的查询，Z是记忆，即来自Transformer编码器的增强图像特征。

我们的方法与现有的 DETR 解码器之间唯一的区别已标红显示。如图 2 所示，所需的添加包括引入一个侧向分支来计算位置关系。因此，我们的位置关系以及注意力的逐步细化过程都是直接明了的，这使得我们能够以即插即用的方式与现有 DETR 检测器中的自注意力机制集成，从而实现一致的性能提升（见表 6）。

4.3 对比关系流程

重新审视现有去重方法（包括非最大值抑制NMS、Soft-NMS、fast-NMS、Adaptive-NMS）的工作机制，这些过程严重依赖于IoU（交并比），从某种程度上说，IoU标志着边界框之间的位置关系。因此，我们可以假设在自注意力中整合查询间的位置关系有助于物体检测中非重复预测的产生。

非重复预测与充分正样本监督之间的冲突源于DETR的流水线处理方式，该方式必须在一对一匹配和一对多匹配之间找到平衡。为了克服这一限制，我们基于提出的位置关系将其扩展到一个对比流程。具体来说，我们构建了两组平行的查询，即匹配查询和混合查询。这两组查询都被输入到Transformer解码器中，但经历不同的处理过程。匹配查询通过结合位置关系的自注意力处理来产生非重复预测：

而混合查询则通过相同的解码器进行解码，但跳过位置关系的计算，以便探索更多的潜在候选。它们对应的预测分别表示为和。对比关系流程的具体细节如图 3 所示。

假设g表示ground truth标注，对于，我们采用一对一匹配方案来强调非重复性特性，损失计算的方法类似于原始的 DETR 方法：

而对于，则采用一对多的匹配方案来形成更多的潜在正例候选。我们简单地遵循 H-DETR 的方法，将地面真实标签重复 K 次，记作，用于损失计算：

其中表示匈牙利损失，而 L 表示解码器层的数量。值得一提的是，混合查询仅在训练过程中参与，因此对推理过程不会带来额外的计算负担。

5 实验结果与讨论

5.1 实验设置

为了进行全面评估，我们在一个目标检测基准数据集（COCO 2017）以及两个特定任务的数据集（CSD 和 MSSD ）上进行了实验。检测性能采用标准平均精度（Average Precision, AP）来衡量。我们的模型是在 NVIDIA A800 GPU（80GB）和 RTX 3090 GPU（24GB）上进行训练的，使用 AdamW 优化器，初始学习率为 1×10−4，权重衰减为 1×10−4。Relation-DETR 是基于从 ImageNet预训练的骨干网络 ResNet-50和 Swin-L实现的，并且在训练过程中以 1×10−5的学习率进行微调。在后期阶段，学习率按因子 0.1 减少。位置关系编码器的参数 T, , s 经验性地选择为 10000, 16, 100。混合训练配置遵循 DINO和 HDETR的设置，即 , , k=6。我们采用 VariFocal 损失来训练 Relation-DETR。对于 COCO 2017 数据集，训练批次大小为 10；对于特定任务的数据集，训练批次大小为 2。在送入检测器之前，图像会经过相同的增强处理（随机缩放、裁剪和翻转），这与其他 DETR 检测器相同。

5.2 与最先进方法的比较

在COCO 2017上的比较。表1展示了在COCO val 2017数据集上的检测性能。相比于其他最先进的DETR方法，我们的方法收敛得更快，并且分别在AP（平均精度）、AP50和AP75上取得了显著提升，分别为1.0%、1.0%和0.6%，明显超过了第二好的DDQ-DETR。具体而言，Relation-DETR仅使用ResNet-50主干网络并在12个epoch内就能达到51.7%的AP，甚至超过了经过36个epoch训练的DINO（其AP为51.2%），速度快了3倍。更重要的是，与依赖于NMS（非极大值抑制）在解码器或后处理阶段来提高精度的DDQ-DETR和Co-DETR不同，我们的Relation-DETR保持了一个端到端的管道，确保了良好的可扩展性。当集成Swin-L主干网络时，Relation-DETR超越所有对比方法，以0.5%的AP提升达到了最佳的57.8% AP，这展现了它对于更大模型容量的出色扩展性。

在特定任务的数据集上的比较。不同于通用的目标检测基准，特定任务场景下的数据集往往缺乏足够的样本来提供语义信息。为了揭示Relation-DETR的泛化能力，我们在两个缺陷检测数据集上进行了性能比较，即CSD和MSSD。表3的结果显示，Relation-DETR在CSD数据集上比基线DINO提高了1.4%的AP，达到了最高的54.4% AP。表4表明，在MSSD数据集上Relation-DETR进一步将差距扩大到了6.4%的AP，并超过了其他所有对比方法。值得注意的是，CSD和MSSD包含比COCO 2017更多的小尺寸物体，这证实了Relation-DETR在小尺寸目标检测上的有效性。此外，在更严格的IoU阈值下，Relation-DETR在AP@75指标上比第二好的方法DINO高出11.1%，突显了明确的位置关系对于高质量预测的积极影响。

5.3 消融研究

本部分通过消融研究探讨了所提出的组件如何影响在COCO数据集上的最终检测性能。表5中的结果显示，Relation-DETR的每个关键组件都一致地对提高AP做出了贡献。即使是在已经高度优化并采用VariFocal损失的基线上，我们的位置关系编码器和对比学习流程也带来了显著的+0.3%和+0.5% AP的提升。基于归一化的相对几何特征的位置关系有效地克服了尺度偏差，从而为不同尺寸的目标带来了一致的性能改进。例如，表5显示引入关系到带有VFL的基线可以实现+1.2% APS、+1.0% APM和+1.3% APL的提升。

5.4 位置关系的可迁移性

我们的位置关系编码器采用了优雅的设计架构，确保了能够以最小的修改轻松迁移到现有的DETR检测器上。表6中的实验结果显示，集成位置关系编码器而无需进一步的修改就能明显提升检测性能，对于Deformable-DETR、DAB-Deformable-DETR、DN-Deformable-DETR和 DINO分别有1.6%、2.0%、0.1% 和0.2% 的提升。有趣的是，相比于APM和APL，位置关系对于Deformable-DETR和 DAB-Deformable-DETR的APS改进效果更加显著。我们认为这是由于这些早期提出的基线模型引入的结构偏差相对较少，因此从我们明确的位置关系先验中获益更多。

此外，所提出的对比管道可以视为对混合匹配的扩展，利用了提出的位置关系编码器。表7比较了它们整合到DINO时的可迁移性。结果表明，直接将混合匹配应用于DINO导致性能下降，平均精度（AP）从49.9%降至49.5%。相反，引入所提出的关系编码器以及扩展的对比管道则始终提升了性能。这证明了所提出的位置关系先验在提高检测性能方面的有效性，并克服了混合匹配固有的泛化能力较弱的问题。

为了便于直观地比较性能，图4绘制了收敛曲线和精确召回率曲线。由于位置关系先验减少了从数据中学习结构偏差的需求，Relation-DETR展示了更快的收敛速度。从头开始训练时，它能在较少的迭代次数内达到比其他方法更高的平均精度（AP）。具体而言，RelationDETR仅用2个周期就能实现超过40%的AP，超过了现有的DETR探测器。除了收敛速度外，不同交并比（IoU）阈值下的PR曲线也验证了我们提出的Relation-DETR的性能提升。

5.6 可视化

为了更直观地理解关系机制，图5展示了在给定查询对象时具有较高关系权重的代表性物体。可视化结果显示，对于一般性和特定任务的数据集，该关系有助于根据给定的对象查询来识别其他潜在检测目标。此外，小尺寸的物体由于自身语义信息不足，往往倾向于与更多其他物体建立关系连接。因此，构建关系对于小尺寸物体的检测至关重要。

图6进一步展示了Relation-DETR的一些失败案例，表明所提出的模型可能通过考虑更复杂的关系（如遮挡和语义关系）而受益于被遮挡的物体以及具有误导性语义差异的密集物体。

5.7 朝着通用物体检测的方向发展

位置关系先验对于覆盖更广泛场景和物体的数据集是否仍然有效？作为一种普遍的先验知识，我们预计显式的位置关系先验能够有益于通用物体检测任务。为了探究这一点，我们构建了一个大规模的类别无关检测数据集，包含大约 100,000 张图像，称之为 SA-Det-100k，它是从 SA-1B 中采样得到的子集，而 SA-1B 是在Segment Anything 中提出的最大规模的分割数据集之一。然后我们在该数据集上使用 VFL比较了我们的 Relation-DETR 与基线模型 DINO的性能。表 8 中的结果表明，Relation-DETR 达到了 1.3% AP 的显著提升，这证明了所提出的显式位置关系先验的可扩展性。

6 结论

本文探讨了显式位置关系先验用于增强 DETR 检测器的性能和收敛性。基于归一化的相对几何特征，我们提出了一种新的位置关系，克服了尺度偏差以实现注意力的逐步细化。为了缓解 DETR 框架中非重复预测与充分正例监督之间的冲突，我们将流水线扩展为基于所提位置关系的对比流水线。这些组件的结合产生了一种最先进的检测器，名为 Relation-DETR。大量的消融研究和实验结果展示了所提出的检测器具有卓越的性能、更快的收敛速度以及良好的迁移能力。此外，Relation-DETR 在一般性和特定任务的检测任务中均展现出显著的泛化能力。我们相信这项工作将会激发未来关于 DETR 检测器的关系和结构偏差方面的研究。