Accelerating DETR Convergence via Semantic-Aligned Matching
论文地址:https://arxiv.org/pdf/2203.06883.pdf
代码:https://github.com/ZhangGongjie/SAM-DETR
目录
0、摘要
最近开发的DEtection TRansformer(DETR)通过消除一系列手工制作的组件,建立了一种新的对象检测范式。然而,DETR的收敛速度非常慢,这大大增加了训练成本。我们观察到,在不同的特征嵌入空间中,对象查询与目标特征匹配的复杂性很大程度上是导致收敛缓慢的原因。本文介绍了SAM-DETR,这是一种语义对齐的匹配DETR,它在不牺牲精度的情况下大大加快了DETR的收敛速度。SAM-DETR从两个角度解决了趋同问题。首先,它将对象查询投影到与编码图像特征相同的嵌入空间中,通过对齐语义可以有效地完成匹配。其次,它显式地搜索具有最具辨别力特征的显著点进行语义对齐匹配,这进一步加快了收敛速度并提高了检测精度。SAMDETR就像一个即插即用的解决方案,它很好地补充了现有的收敛解决方案,但只引入了少量的计算开销。大量实验表明,所提出的SAM-DETR算法不仅具有很好的收敛性,而且具有很高的检测精度。
1.导言
目标检测是计算机视觉中最基本的任务之一,随着深度学习的发展,目标检测取得了前所未有的进展。然而,大多数目标检测器往往由于其过度使用而受到复杂的检测管道和次优性能的影响-依赖手工制作的组件,如锚、规则-
基于目标的分配和非最大抑制(NMS)。最近提出的检测变压器(DETR)[3]消除了对此类手工设计组件的需求,并建立了一个完整的端到端目标检测框架 。尽管DETR的设计简单,结果令人满意,但其最显著的缺点之一是在训练上的收敛速度极慢,这需要500次迭代才能在COCO基准上收敛,而Faster R-CNN只需要12∼36次迭代。 这种缓慢的收敛问题显著增加了训练成本,从而阻碍了其更广泛的应用。
DETR在解码器中使用一组对象查询来检测不同空间位置的目标对象。如图2所示,在交叉注意模块中,使用基于集合的全局loss对这些对象查询进行训练,以匹配目标对象,并从匹配的区域提取相应的特征以进行后续预测。 然而,正如[10,31,63]所指出的,每个对象查询在初始化时几乎要与所有空间位置匹配,因此需要繁琐的训练迭代来学习关注相关区域。目标查询与相应目标特征之间的匹配困难是DETR收敛缓慢的主要原因。
最近提出了一些工作来解决DETR的缓慢收敛问题。如,Deformable DETR用只关注一小部分特征的可变形注意取代了原来的全局密集注意,以降低复杂性并加快收敛速度。 Conditional DETR 和 SMCA-DETR将交叉注意力模块修改为空间条件。相比之下,我们的方法从不同的角度工作,而不改变注意机制。
我们的核心思想是简化对象查询与其对应的目标特征之间的匹配过程。基于暹罗Siamese-based的架构定义了一个很有希望的匹配方向,该架构通过两个相同的子网络将匹配双方的语义对齐,以将它们投射到相同的嵌入空间。它的有效性已经在各种匹配相关的视觉任务中得到了证明,例如目标跟踪[1,4,20,21,46,47],重新识别[5,37,38,48,59],以及少量镜头识别[15,19,39,41,55]。 基于这一观察,我们提出了语义对齐匹配DETR(SAM-DETR),它在crossattention模块之前附加了一个即插即用模块,以将对象查询与编码图像特征进行语义对齐,从而促进它们之间的后续匹配。这为对象查询提供了一个强大的先验知识,使其能够关注编码图像特征中语义相似的区域。 此外,由于物体的关键点和末端在识别和定位中的重要性[3,31,62],我们建议搜索多个显著点并使用它们进行语义匹配,这自然符合DETR最初的多头注意机制。我们的方法只在原始DETR中引入了一个即插即用模块,而大多数其他操作保持不变。