Enhancing DETR’s Variants through Improved Content Query and Similar Query Aggregation论文解读


前言

查询的设计对于DETR及其变体的性能至关重要。每个查询包含两个部分:内容部分和位置部分。传统上,内容查询初始化为零值或可学习embeding,这缺乏必要的内容信息,导致次优性能。在本文中,我们引入了一个新颖的即插即用模块——自适应内容查询(Self-Adaptive Content Query, SACQ),以解决这一局限性。SACQ模块利用transformer编码器的特征,通过自注意力池化生成内容查询。这让候选查询能够适应输入图像,从而形成更全面的内容先验并更好地聚焦于目标对象。然而,这种增强的聚焦性对训练过程构成了挑战,该过程采用匈牙利匹配算法,仅选择单一候选并抑制其他相似候选。为克服这一难题,我们提出了一种查询聚合策略与SACQ协同工作。它合并来自不同查询的相似预测候选,缓解了优化难度。我们在COCO数据集上的广泛实验表明,我们的方法在六种不同的DETR变体及多种配置下均表现出了有效性,平均提升了超过1.0的AP(平均精度)分数。

论文下载:https://arxiv.org/pdf/2405.03318

论文链接百度网盘(含翻译):
链接:https://pan.baidu.com/s/125x_HqYR-b8rgsTSFTkA-Q
提取码:detr
名称:Enhancing DETR’s Variants through Improved Content Query and Similar Query Aggregation-2024.pdf

一、摘要

查询的设计对于DETR及其变体的性能至关重要。每个查询包含两个部分:内容部分和位置部分。传统上,内容查询初始化为零值或可学习embeding,这缺乏必要的内容信息,导致次优性能。在本文中,我们引入了一个新颖的即插即用模块——自适应内容查询(Self-Adaptive Content Query, SACQ),以解决这一局限性。SACQ模块利用transformer编码器的特征,通过自注意力池化生成内容查询。这让候选查询能够适应输入图像,从而形成更全面的内容先验并更好地聚焦于目标对象。然而,这种增强的聚焦性对训练过程构成了挑战,该过程采用匈牙利匹配算法,仅选择单一候选并抑制其他相似候选。为克服这一难题,我们提出了一种查询聚合策略与SACQ协同工作。它合并来自不同查询的相似预测候选,缓解了优化难度。我们在COCO数据集上的广泛实验表明,我们的方法在六种不同的DETR变体及多种配置下均表现出了有效性,平均提升了超过1.0的AP(平均精度)分数。

在这里插入图片描述

二、引言

  目标检测在各种应用中至关重要,例如自动驾驶、视频监控和机器人操作。在过去几十年中,卷积架构推动了检测方法的重大进展[Girshick, 2015; Ren et al., 2015; Tian et al., 2019; He et al., 2017; Redmon et al., 2016; Liu et al., 2016; Lin et al., 2017]。这些算法通常需要一个手工设计的模块来生成锚点,这些锚点作为目标检测的初步候选。此外,非极大值抑制(NMS)[Hosang et al., 2017]对于防止重复检测是不可或缺的。最近,Carion等人提出了一种名为DEtection TRansfomer(DETR)的全面端到端目标检测方法[Carion et al.,2020]。与以前的检测算法相比,DETR利用学习查询来唯一预测对象,消除了锚点生成和NMS的需要。这种方法简化和统一了检测流程,但训练收敛速度较慢。

  为了解决DETR的收敛问题,已经提出了许多变体来增强其查询设计。在解码器中,每个查询由两个组件组成:一个内容部分和一个位置部分。现有研究主要集中在改进位置部分。这些方法致力于为每个查询提供全面的位置先验,使交叉注意力模块能够专注于与目标对象相关的特定区域。相反,内容部分很大程度上被忽视,并且通常被初始化为零或可学习的embeding。这对于初始解码器层中的交叉注意力模块提供了没有实质信息的内容。

  在本文中,我们关注内容查询,这是以前很少考虑的一个方面。我们引入了一个名为Self-Adaptive Content Query(SACQ)的新型即插即用模块,以增强DETR变体的性能。我们的SACQ包括两个主要组件:1)用于内容查询初始化的全局池化特征,2)用于进一步增强内容查询的局部池化特征。传统上,在解码器中,内容查询要么用零张量初始化,要么用可学习的embeding初始化,这些初始化是静态的,并且缺乏任何输入先验。Carion等人[Carion et al., 2020]指出,DETR中的编码器已经通过全局注意力分离了实例,而解码器专注于极端以提取类别和对象边界。基于这一观点,我们提出了一个自注意力池化模块(SAPM),能够动态地从编码器中汇集特征,作为解码器第一层更有效的初始内容查询。
  为了验证我们的假设,我们可视化了原始Deformable-DETR第一解码器层学习到的具有高注意力权重的采样点,如图1所示。可视化显示这些点倾向于聚集在预测对象的一个狭窄区域或者散布在目标附近。在整合SAPM模块后,具有高权重的采样点更加均匀地覆盖整个预测对象,并且在对象外部的点显著减少。这表明我们的内容查询为每个查询补充了内容先验,使交叉注意力模块能够更好地专注于目标对象。改进后的目标查询倾向于集中在目标对象上,导致为目标对象生成高度相似候选查询。这给传统匈牙利一对一匹配带来了额外挑战。Jia等人[Jia et al., 2022]指出,这种匹配策略由于分配给正样本的查询较少而降低了正样本的训练效率。为了缓解这个问题,我们提出了一个简单直接的解决方案:在进行集合匹配之前将来自不同查询的相似预测结果合并为一个结果。查询之间的相似性由类别预测的Kullback-Leibler(KL)散度和边界框预测之间的交并比(IoU)确定。如图5所示,由于其改进初始化,我们的SACQ模块倾向于为目标对象生成更相似的边界框。通过实施Query Aggregation(QA)策略,我们进一步利用SACQ的优势,将这些潜在查询的输出组合在一起,并最大化它们的效用。

总之,我们的技术贡献有两个方面:
    • 我们提出了一种内容查询优化的新方法,在以前的工作中被忽视。它由两个互补模块组成:SACQ和QA。SACQ通过引入输入先验为解码器生成改进的内容查询。此外,QA模块通过聚合SACQ生成的高质量候选项,并通过聚合候选框减少与一对一匹配相关的不稳定性。这两个模块可以轻松集成到现有的DETR变体中。
    • 通过对COCO数据集进行实验和定量分析,我们验证了我们提出方法的有效性,平均实现map 1个点提升,在不同6个DETR变体模型中。
在这里插入图片描述

三、文献综述

1、CNN-based Object Detection Methods

  经典的基于CNN的目标检测器可以分为两类:两阶段和一阶段方法。两阶段方法首先生成一组框提议,然后确定每个提议是否对应一个对象,最后基于提议执行边界框回归。典型方法包括RCNN[Girshick et al., 2014]、Fast-RCNN[Girshick, 2015]、Faster-RCNN[Ren et al., 2015]等。相反,一阶段模型直接根据预定义的锚点或参考点预测对象的边界框。一阶段方法的示例包括SSD[Liu et al., 2016]、YOLO系列[Redmon et al., 2016; Redmon and Farhadi, 2018]等。

2、DETR and Its Variants

  DETR[Carion et al., 2020]是将Transformer引入目标检测的开创性工作。与以前的检测方法不同,DETR是一个真正的全面端到端检测器,不依赖于手工设计的组件,如锚点提议和NMS。然而,由于解码器的交叉注意力,它的训练收敛非常缓慢[Sun et al., 2020]。许多后续方法已尝试解决这个问题。Dai等人[Dai et al., 2021a]通过将动态注意力结合到DETR的编码器和解码器中来改进DETR中的编码器和解码器,以克服低特征分辨率和训练收敛缓慢的问题。Anchor DETR[Wang et al., 2021b]和DAB-DETR[Liu et al., 2022a]分别将位置查询制定为动态锚点和锚盒,弥合了传统基于锚点的检测器与基于DETR的检测器之间的差距。

  一些变体通过优化Transformer头部的结构来改善训练性能。Sparse DETR[Rohet al., 2022]和PnP-DETR[Wang et al., 2021a]解决了由特征图的空间冗余问题引起的DETR模型中Transformer网络的过多计算问题。Deformable-DETR[Zhu et al., 2021]提出了一个更高效的注意力模块,该模块关注参考点周围一小组采样位置作为显著关键元素的预过滤器。其他一些文章改进了解码器中的查询。SAM-DETR[Zhang et al., 2022]使用查询嵌入来对齐和重新加权RoI-Aligned编码图像特征,并生成增强查询,这在某种程度上与我们的查询特征增强相似。然而,我们方法和SAM-DETR的主要目标有很大不同。SAM-DETR使用零初始化内容查询,并且主要在第一个解码器层之后增强查询,而我们的SACQ旨在提供在当前DETR变体中查询初始化时最初被忽视的与对象相关的内容先验。SAPDETR[Liu et al., 2022b]为每个查询分配特定的网格区域,并将网格的角/中心初始化为其参考点。这种方法与我们的方法正交。Dynamic DETR[Dai et al., 2021b]引入了动态注意力,通过向编码器和解码器阶段添加额外的RoI特征到交叉注意力中来解决低特征分辨率和训练收敛缓慢的问题。然而,它也使用可学习嵌入来初始化查询,这与我们的方法不同。
  Li等人提出了DN-DETR[Li et al., 2022a],该方法额外将带有噪声的真实边界框输入到Transformer解码器中,并训练模型重建原始框。DINO[Zhang et al., 2023]通过将DN-DETR与DAB-DETR和Deformable-DETR的设计结合起来,进一步改进去噪训练。Mask DINO[Li et al., 2022b]通过添加一个掩码预测分支扩展了DINO,使其支持分割任务。它通过简单选择来自编码器的特征来初始化内容查询,但它们的初始化仅包含一个位置的信息,无法覆盖整个目标。H-DETR[Zong et al., 2023]和Co-DETR[Zong et al., 2022]增加了额外的混合匹配训练分支,探索更多正查询以克服一对一匹配的缺点。Stable-DINO[Liu et al., 2023]仅利用位置度量监督正例的分类得分,以减轻双向图匹配的不稳定性。最近提出的其他DETR变体包括Group-DETR[Chen et al., 2022]、SQR-DETR[Chen et al., 2023]、Team-DETR[Qiu et al., 2023]和KS-DETR[Zhao and Ukita, 2023]。

四、方法

1、Overview

  给定输入图像 I,DETR及其变体首先应用主干网络来提取空间特征 FB。这些特征通过Transformer编码器进一步细化为增强特征 FE。增强特征连同一组默认的对象查询 Q,然后被送到Transformer解码器中以识别相应的对象。最后,解码器的最后一层的输出用于通过预测头预测标签和框。Transformer解码器中的对象查询由两个组件组成:位置查询 Qp 和内容查询 Qc。然而,在大多数DETR的变体中,内容查询通常要么初始化为零,要么使用可学习的嵌入。在这项工作中,我们专注于内容查询,并提出了一个新颖的即插即用模块,Self-Adaptive Content Query (SACQ),来增强它。这进一步由一个查询聚合(QA)策略来补充。更多详细信息将在接下来的子章节中详细阐述。

2、Self-Adaptive Content Query

  为了增强内容查询的初始化,开发一个能够准确识别和提取图像中与对象相关特征的模块至关重要。现有的针对特定对象的特征提取方法,如RoI-Align[He et al., 2017],需要在图像中输入精确的目标位置坐标。然而,使用这种方法汇集的特征可能不可避免地包含噪音,如背景。解决这一挑战的一个有前途的方法是利用注意力机制软性地隔离目标,这可以产生比通过RoI-Align获得的更好的特征。该解决方案涉及设计一个能够为每个对象生成独特注意力图的模块,并利用这些映射来提取详细的对象特定特征。这些特征随后将有助于内容查询的初始化和增强。由于这个过程不需要输入目标的坐标,我们将其称为Self-Adaptive Content Query (SACQ),这是一种更直观、更自主的对象相关特征提取方法,旨在获得更好的内容查询。

  我们SACQ 的核心是自注意力池化模块(SAPM),如图2左侧所示。SAPM由三个组件组成:注意力映射投影(AMP)模块、加权池化(WP)模块和通道重加权(CR)模块[胡等,2018]。给定输入特征 F ∈ Rc×h×w,SAPM通过AMP模块将其首先投影到注意力图 A ∈ Rq×h×w 中。在这里,AMP由几个卷积层组成。其主要目标是为每个查询生成可以聚焦于相应目标的注意力图。随后,特征 F 经历加权池化过程,得到对象特定特征 FP ∈ Rq×c,其由注意力图 A 引导如下:
在这里插入图片描述
  CR模块然后调整FP内的通道权重,从而突出提取特征的独特性。输出特征可以表示为 FO = σ(MLP(FP)) ⊙ FP,其中σ表示sigmoid激活函数, ⊙ 表示逐元素相乘。
   SAPM在增强第一个解码器层的内容查询初始化方面发挥了关键作用。此外,在后续层中通过调整内容查询以更准确地聚焦于目标对象,还有进一步的优化潜力。为了充分利用SAPM精确聚焦于对象的能力,我们将其与RoI-Align集成,以生成局部特征。这种内容查询的增强从第二个解码器层开始,并持续向后。
   图2的右侧展示了完整的SACQ模块。Transformer编码器生成特征FE,这些特征首先通过全局SAPM处理,以生成初始内容查询Qc 0。这个查询与位置查询Qp 0一起形成一个复合对象查询,作为Transformer解码器第一层的输入。通过多头交叉注意力,对象查询与FE交互以产生更新的内容查询Qc 11。为简洁起见,图中未显示将特征的位置编码输入解码器。
   随后,使用框头来预测每个查询的边界框B1。然后对这些边界框进行RoI-Align,以提取针对每个预测区域的局部特征。提取的局部特征然后输入到局部SAPM中,生成的输出Qc 12 用于增强内容查询并生成下一个解码器层的输入:Qc 1 = Qc 11 + Qc 12。接下来的解码器层通过利用具有共享参数的局部SAPM来重复这个加强内容查询的过程。
在这里插入图片描述

3、Similar Query Aggregation Strategy

  我们的自注意力内容查询(SACQ)通过自注意机制增强了内容查询,使其能够生成更多高质量的候选结果。然而,候选质量的提高使得优化过程变得复杂,并为现有的一对一匹配机制引入了不稳定性。因为一对一匹配被限制在优化每个对象的单个候选结果上,这就需要抑制属于同一对象的任何额外高质量候选结果。为了解决这个问题,我们提出了一种名为查询聚合(QA)的方法,在集合匹配之前将不同候选结果的相似预测合并为统一结果。这种策略不仅保留了高质量的候选结果,还通过聚合候选框来减轻与一对一匹配相关的不稳定性。在我们的QA中,我们使用Kullback-Leibler(KL)散度和交并比(IoU)来评估查询之间预测类别和边界框的相似性。对于属于第i个和第j个查询的类别预测pi和pj,其中pi,pj ∈ Rm,类别相似度Scls ∈ Rq×q定义如下:
在这里插入图片描述

  这里,q代表查询的数量,m是对象类别的总数。我们建立了两个阈值来确定哪些查询要合并:一个类别相似度阈值tc和一个框相似度阈值tb。合并的标准是Scls < tc和Sbox > tb。对于一组用于合并的n个查询Qi,其中i ∈ M,合并结果通过对预测值进行平均计算得出:p = (1/n)EPi∈M (pi),B = (1/n) E Pi∈M (Bi)。图3说明了使用我们的查询聚合策略和普通transformer解码器之间的区别。

在这里插入图片描述

五、实验

1、Setup

  数据集 我们在众所周知的COCO 2017目标检测数据集[Lin等,2014]上进行实验,该数据集包含约118K张训练图像和5K张验证图像。遵循检测方法中的通用做法,我们在不同边界框IoU阈值下以及不同目标尺度下,在验证集上报告标准的平均精度(AP)结果。
实现细节 我们在六种DETR变体上测试了我们方法的有效性:Deformable-DETR、SAM-DETR、SAP-DETR、DAB-DETR、DN-DETR和DINO。它们包括一个骨干网络、多个Transformer编码器层和解码器层。为了公平比较,我们统一采用在ImageNet-1K[Russakovsky等,2014]上预训练的ResNet-50[He等,2015]模型作为每个变体的骨干。我们遵循相应基线方法的原始超参数设置。有关SAPM的详细网络结构,请参阅附录A.1。类别和框相似性阈值设置为:tc = 3×10^(-7),tb = 0.9。用于内容查询增强的RoI-Align的输出大小为7×7。我们在一台8-(A100)GPU机器上每GPU使用2张图像进行训练,总批量大小为16。优化采用AdamW[Loshchilov和Hutter,2017],其中β1 = 0.9,β2 = 0.999,权重衰减为10(-4)。骨干网络和其他模块的学习率分别设置为10(-5)和10^(-4)。对于收敛较快的变体(DN-DETR和DINO),我们训练模型12个epoch,并在第11个epoch后将学习率降低0.1倍。对于Deformable-DETR和DAB-DETR,我们训练模型50个epoch,并在第40个epoch后将学习率降低0.1倍。对于损失函数,我们使用L1损失和GIOU[Rezatofighi等,2019]损失进行边界框回归,以及用于目标分类的focal loss[Lin等,2019],其中α = 0.25,γ = 2。按照DETR变体的训练设置,在每个解码器层后添加辅助损失。我们使用与每个基线方法相同的损失系数,即分类损失为2.0,L1损失为5.0,GIOU损失为2.0。

2、Main Results

  表1展示了我们的主要实验结果。为了公平起见,所有模型都在COCO 2017验证集上进行评估。我们的方法始终提升了所有方法的性能。对于Deformable-DETR,我们的方法在迭代边界框细化和两阶段设置下分别实现了AP增益为1.5(45.4 vs. 46.9)和1.1(46.2 vs. 47.3)。DAB-DETR和DAB-Deformable-DETR改进了查询的位置方面,而我们的方法进一步提升了性能,AP增益分别为1.0(42.2 vs. 43.2)和0.8(46.8 vs. 47.6)。这表明我们对内容查询的优化与位置查询是正交的。对于SAM-DETR和SAP-DETR,我们的方法导致AP增益分别为1.2(41.8 vs. 43.0)和1.4(43.1 vs. 44.5)。引入查询去噪任务以帮助稳定双向图匹配并加速训练收敛的DN-DETR也从我们的方法中受益,12个epoch训练计划下实现了1.3的AP改进(41.1 vs. 42.4)。对于最先进的方法DINO,我们获得了0.4(49.0 vs. 49.4)的AP改进。尽管对于DINO来说增益尚不显著,但我们对内容查询和匹配策略的联合优化开辟了DETR-based检测方法的新方向。这两个模块以一种非平凡的方式密切相关。我们当前的解决方案是有效的,并具有进一步改进的巨大潜力,这留给未来研究。有关Swin Transformer骨干网络更多结果,请参阅附录B.1。
在这里插入图片描述

3、Ablations

   我们对具有迭代边界框细化基线的Deformable-DETR进行了一系列消融研究,以验证我们方法中每个组件的有效性。表2中的结果显示,所有组件都有助于性能改善。SACQ-Global表示我们只采用一个SAPM从编码器中汇集全局特征以初始化内容查询。SACQ-Local表示在第一个解码器层之后使用局部池化特征来增强内容查询。QA代表我们的相似性查询聚合策略,将来自不同查询的相似预测结果合并为同一结果。结果显示,用全局汇集特征初始化的内容查询具有最显著的性能改善。
   我们分析了SACQ的通道加权模块的影响,如表3所示。结果表明,添加CR模块在一定程度上提高了性能。我们认为CR模块可以使每个内容查询更加专业化,并以高度对象特定的方式响应不同的输入。
   此外,我们研究了对我们的查询聚合策略的不同阈值的影响。我们将类别阈值设置为较低值,以确保具有相同类别的查询被合并。这对性能结果没有显著影响。然而,性能对边界框交并比(IoU)阈值非常敏感。当框IoU阈值过小时,我们观察到性能下降。如表7所示,我们展示了使用不同框IoU阈值获得的结果。当阈值设置为0.7时,性能下降到45.3的AP,低于没有查询聚合的基准。这种下降可以归因于对不显著重叠的对象进行合并的负面影响。有关更多消融研究,请参考附录B.2和B.3。
在这里插入图片描述

4、Discussions

  SACQ的attention map学习到了什么?我们在各种基线上进行的全面实验已经证实了我们的SACQ的有效性。为了清晰理解其自注意力机制,我们已经将全局池化注意力图可视化为热图形式。如图8所示,SACQ模块内的每个注意力图准确地集中在相关对象上(由红色边界框表示,表示相应查询的预测对象)。对于预测分数较低的查询,注意力图呈现出更均匀的分布,表明注意力不够集中。精确聚焦于特定对象的能力验证了生成的特征适合用于初始化内容查询。这种初始化导致了交叉注意力计算中初始解码器层的优越内容先验,从而提高了交叉注意力机制在定位所需对象时的精度。有关更多可视化,请参见附录B.4。

  SACQ能否被ROI对齐特征替代?对编码特征图进行ROI对齐的结果可以简单地作为内容查询初始化的选项。然而,这需要额外的模块为大多数DETR变体生成ROI(除了两阶段Deformable-DERT)。这与DETR变体的一个关键优势相矛盾,即消除锚点或提议生成。此外,我们进行了使用ROI对齐特征作为内容查询初始化的实验,其中ROI来自两阶段Deformable-DERT的第一阶段。与原始的两阶段Deformable-DERT相比,性能下降了1.1个点(45.1 vs. 46.2)。主要原因有两个:1)从第一阶段预测的边界框质量较低,正如DINO的作者指出的那样;2)使用ROI获得的特征包含不相关内容,因为对象可能不完全匹配目标框,使特征模糊且不足以进行内容查询初始化。相比之下,SACQ可以通过SAPM模块准确聚焦于目标对象(参见图8)。

  QA如何与SACQ合作?通过改进初始化,SACQ能够为目标对象生成更多高质量的候选边界框,如图5左侧所示。传统的一对一匹配方法只会将这些查询中的一个分配高目标得分,导致其他查询被抑制和未充分利用。此外,更多高质量候选者的存在可能进一步不稳定优化过程。例如,候选者A和B都符合目标对象的匹配标准。在特定训练迭代中,可能会优化候选者A而抑制候选者B,在另一个迭代中则可能相反。这种波动加剧了优化过程的不稳定性,使收敛变得更加困难。我们设计了Query Aggregation(QA)模块来解决这个问题,通过合并这些高质量候选者的输出,从而消除对应于同一对象的任何其他高质量候选者被抑制的需要。
  合并查询预测的对象是什么样子?如前所述,我们的查询聚合策略将不同高质量候选结果的相似预测合并为单个预测。在验证集中,最大合并操作次数为169,最小为1,表明存在未发生合并的情况。图6说明了合并后的预测边界框,以及每个查询的原始预测。绿色边界框代表得分高于0.5的合并查询的预测,而红色框表示合并之前的查询的预测。蓝色框表示得分低于0.5的查询的预测。结果表明,我们的策略通过合并高质量候选结果并最大化它们的效用,可以提高对象预测的置信度。例如,在图6中,没有查询聚合的第二行图像中左侧人物的得分低于0.5。然而,通过查询聚合,同一人物的相应预测得分超过了0.5。这突显了我们聚合方法在提高对象检测可靠性方面的有效性。

六、结论

  在本文中,我们介绍了一种增强DETR变体性能的新型即插即用方法。我们的方法包括自适应内容查询(SACQ)模块和查询聚合(QA)策略。SACQ模块通过提供更好的初始化和逐步增强,改进了DETR变体查询的内容方面。另一方面,QA策略保留了SACQ生成的高质量候选结果,并通过合并相似候选框减少了与一对一匹配相关的不稳定性。这进一步补充了SACQ模块。我们对六种不同基准方法进行了大量实验,使用多种配置验证了我们方法的有效性。

总结

聚类QA策略:合并候选框改善一对一优化方式;
内容查询:使用特征图获得查询embeding而不是初始化为0;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

tangjunjun-owen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值