三十八章:Towards Efficient Use of Multi-Scale Features in Transformer-Based Object Detectors

0.摘要

        多尺度特征在目标检测中已被证明非常有效,但通常会带来巨大甚至不可接受的额外计算成本,尤其是对于最近的基于Transformer的检测器。在本文中,我们提出了迭代多尺度特征聚合(IMFA)-一种通用的范例,可以在基于Transformer的目标检测器中高效利用多尺度特征。其核心思想是利用从仅有几个关键位置获得的稀疏多尺度特征,并通过两种新颖的设计来实现。首先,IMFA重新组织了Transformer编码器解码器流水线,使得编码特征可以根据检测预测进行迭代更新。其次,IMFA在先前的检测预测的指导下,从仅有几个关键点位置稀疏地采样适应尺度的特征,以进一步优化检测结果。因此,采样的多尺度特征虽然是稀疏的,但对于目标检测仍然非常有益。大量实验证明,所提出的IMFA显著提升了多个基于Transformer的目标检测器的性能,而仅带来轻微的计算开销。

1.引言

        在目标检测中,检测具有巨大尺度差异的物体一直是一个主要挑战。幸运的是,强大的证据表明,在处理大尺度变化时,目标检测器可以显著从多尺度特征中受益[11,22,25,48,69,72]。对于像Faster R-CNN [42]和FCOS [49]这样基于ConvNet的目标检测器来说,特征金字塔网络(FPN)[25]及其变体[12,18,19,30,48,69,70]已成为利用多尺度特征的首选组件。除了基于ConvNet的目标检测器之外,最近提出的DEtection TRansformer(DETR)[4]建立了一种完全端到端的目标检测范式,并具有良好的性能。然而,在这些基于Transformer的检测器[4,11,20,29,35,55,66,72]中,简单地使用FPN来融合多尺度特征往往带来巨大甚至不可行的计算成本,主要是因为注意机制在处理高分辨率特征时效率低下。具体而言,对于一个尺寸为H×W的特征图,ConvNet需要O(HW)的计算成本,而基于Transformer的目标检测器中注意机制的复杂度为O(H^2W^2)。为了缓解这个问题,Deformable DETR [72]和Sparse DETR [43]使用稀疏注意力代替了原始的全局密集注意力。SMCA-DETR [11]将大多数Transformer编码器层限制为特定尺度,只有一个编码器层用于集成多尺度特征。然而,随着标记数量与特征图尺寸的平方级增加(通常是单尺度的20倍至80倍),这些方法仍然在计算和内存消耗上代价高昂,并且依赖于引入额外复杂性的特殊操作,如可变形注意力[72]。据我们所知,目前还没有一种通用方法可以高效地利用多尺度特征来进行基于Transformer的目标检测。

        在本文中,我们提出了一种名为迭代多尺度特征聚合(IMFA)的简洁而有效的技术,它可以作为基于Transformer的物体检测器中多尺度特征的高效使用的通用范例。这一方法的动机来自两个关键观察结果:(i)由于背景通常占据了图像空间的大部分,高分辨率特征的计算是高度冗余的,因此只有一小部分高分辨率特征对于物体检测是有用的;(ii)与卷积神经网络不同,Transformer的注意力机制不需要网格状的特征图,这使得只从一些可能包含感兴趣对象的特定区域聚合多尺度特征成为可能。这两个观察结果激发了我们以迭代的方式从仅有的一些信息丰富的位置稀疏采样多尺度特征,然后将它们与编码的图像特征聚合起来。

        具体而言,IMFA在基于Transformer的检测流程中包含两个创新设计。首先,IMFA重新排列了编码器-解码器流程,使得每个编码器层立即连接到其对应的解码器层。这种设计使得可以迭代地更新编码的图像特征以及精细化的检测预测。其次,IMFA从由主干网络生成的特征金字塔中稀疏采样多尺度特征,采样过程受先前的检测预测指导。具体而言,受高分辨率特征的空间冗余性启发,IMFA只关注一些有高概率出现物体的有前景区域。此外,受到对象关键点在识别和定位中的重要性的启发,IMFA首先在每个有前景区域内搜索几个关键点,然后在自适应选择的尺度上对这些关键点周围的有用特征进行采样。采样的特征最终与前一层编码的图像特征一起输入到后续的编码器层中。通过这两个新设计,IMFA仅从信息丰富的位置聚合最关键的多尺度特征。由于聚合的特征数量较小,IMFA引入了最小的计算开销,同时持续提高基于Transformer的物体检测器的检测性能。值得注意的是,IMFA是一种用于高效利用多尺度特征的通用范例:(i)如图1所示,它可以轻松集成到多个基于Transformer的物体检测器中,并具有一致的性能提升;(ii)如第5.4节所讨论的,IMFA在超越物体检测的任务上有提升DETR等模型的潜力。

总结起来,本文的贡献有三个方面:

  • 我们提出了一种新颖的基于DETR的检测流程,其中编码特征可以与精细化的检测预测一起进行迭代更新。这种新的流程可以利用中间的预测作为指导,实现鲁棒且高效的多尺度特征编码。
  • 我们提出了一种稀疏采样策略用于多尺度特征,首先在先前的检测结果的指导下确定了几个有前景潜力的区域,然后在每个有前景潜力的区域内搜索了几个关键点,最后在自适应选择的尺度上对它们的特征进行采样。我们证明了这种稀疏的多尺度特征可以显著改善物体检测的性能。
  • 基于以上的两个贡献,我们提出了迭代多尺度特征聚合(IMFA)——一种简单且通用的范例,可以在基于Transformer的物体检测器中高效地利用多尺度特征。IMFA在多个物体检测器上始终提升了检测性能,同时保持了计算效率。这是对在基于Transformer的物体检测器中高效利用多尺度特征的通用方法进行研究的开创性工作。

图1。提出的迭代多尺度特征聚合(IMFA)是一种在基于Transformer的物体检测器中高效利用多尺度特征的通用方法。它在最小的额外计算开销下提高了多个物体检测器的检测准确性。结果是使用ResNet-50获得的。最好以彩色查看。

2.相关工作

目标检测。大多数现代目标检测器,如Faster R-CNN [42]、YOLO [40]和FCOS [49],都是基于ConvNet的。它们在各种检测基准上取得了有希望的结果[2,7,17,24,38,44,48,54,57,61,62]。然而,这些方法通过定义替代的回归和分类任务来检测物体,这些任务依赖于许多手工设计的组件,如锚点、基于规则的训练目标分配和非极大值抑制(NMS)。因此,这些基于ConvNet的检测器的检测流程复杂、超参数密集,并且不是完全端到端的,导致性能不佳。与基于ConvNet的检测器不同,最近提出的DETR [4]通过使用Transformer [50]编码器-解码器架构,彻底改变了目标检测的范式,消除了对这些手工设计的组件的需求。受DETR [4]的启发,许多基于Transformer的目标检测器[1,3,5,8,13,16,20,23,29,34,36,45,52,53,64–68,72]被提出,并取得了最先进的检测准确性和快速收敛。

目标检测中的多尺度特征。目标检测中的一个主要挑战是有效地表示不同尺度的物体。这对于检测图像中的小物体尤为重要。在现代基于ConvNet的检测器[26,42,48,49,54,56,70]中,特征金字塔网络(FPN)[25]及其变种[12,18,30,69,70]已成为利用多尺度特征的首选解决方案。然而,由于特征金字塔需要在高分辨率的特征图上进行计算,FPN及其变种也引入了大量的计算开销。

        多尺度特征对于基于Transformer的目标检测器也是有帮助的。然而,由于Transformer的注意力机制[50]处理高分辨率特征图的效率低下,需要特殊的修改来将计算复杂度降低到可行的水平。具体而言,Deformable DETR [72]通过在注意力模块中对关键点进行稀疏化,提出了可变形注意力,从而降低了复杂度。SMCA-DETR [11]仅使用一个多尺度注意力编码器层,而限制其他层为特定尺度。CF-DETR [3]将Transformer编码器嵌入到FPN [25]中生成特征金字塔,并使用RoIAlign [14]提取多尺度特征。这些方法使得在基于Transformer的检测器中可以使用多尺度特征,但引入了巨大的计算开销,需要大内存的GPU进行训练和推理,并依赖于特殊的操作,如可变形注意力或RoIAlign。据我们所知,目前还没有一种通用方法能够高效利用多尺度特征来进行基于Transformer的检测。

空间冗余和稀疏特征。并不是所有的特征都同样重要。在大多数情况下,只有一小部分特征对于识别是关键的。基于这个动机,一些工作[9,10,41,43,51,52,72]在特征图上执行稀疏操作,避免在信息较少的位置进行计算。具体而言,在目标检测中,AutoFocus [37]首先在粗糙尺度上预测和裁剪区域,然后在更高的分辨率上对这些区域进行最终预测。PnP-DETR [52]和Sparse DETR [43]根据信息丰富的特征令牌自适应地分配编码操作。我们提出的IMFA类似于QueryDet [58],QueryDet首先在低分辨率特征上进行粗略预测,然后根据粗略预测来稀疏地利用多尺度特征生成最终的检测结果,从而提高推理速度。然而,与我们提出的IMFA不同,QueryDet是为具有FPN [25]的单阶段ConvNet-based检测器设计的,它只加速了推理过程。我们提出的IMFA也受到高分辨率特征中的空间冗余的启发。IMFA仅从少数高度信息丰富的位置利用稀疏特征,以在基于Transformer的检测器中实现检测准确性和计算成本的最佳平衡。

图2.左侧:大多数现有的基于Transformer的目标检测器使用堆叠的Transformer编码器层来获取一组固定的编码图像特征,这些特征被输入到每个Transformer解码器层中与目标查询进行交互。只有目标查询及其相应的检测预测会进行迭代更新。右侧:IMFA将Transformer编码器-解码器流程重新排列为多个堆叠的检测阶段。每个检测阶段由一个编码器层、一个解码器层和一个前馈网络(FFN)组成,在检测细化过程中可以迭代更新编码特征、目标查询和检测预测。为简洁起见,仅显示了三个编码器和解码器层。

3.重新审视基于Transformer的目标检测

        由于我们提出的方法是建立在最近提出的基于Transformer的目标检测器之上的,我们首先简要回顾一下基于Transformer的目标检测器的检测流程[4,29,35,55],以开创性的工作DETR [4]为例。

        DETR [4]将目标检测问题定义为直接的集合预测问题,并使用Transformer [50]编码器解码器架构来解决该问题。给定一张图像I ∈ RH0×W0×3,骨干网络生成其特征图,进一步将其输入到Transformer编码器中生成编码图像特征F ∈ RHW×d,其中d表示特征的维度,H0、W0和H、W分别表示输入图像和特征图的空间尺寸。然后,编码特征被输入到Transformer解码器中,与一组表示不同空间位置的潜在目标的对象查询进行交互。最后,对象查询被用于通过前馈网络(FFN)生成最终的检测预测。整个检测流程使用基于集合的全局损失进行监督,使用二分图匹配进行训练。

        具体来说,Transformer编码器和解码器都由多个层组成。如图2(左)所示,现有方法[4,11,29,35,55,72]通常使用一堆编码器层处理输入图像特征,并获得一组固定的编码特征,然后将其输入到Transformer解码器层中,通过迭代更新检测结果。不同的是,如图2(右)所示,IMFA引入的一个主要区别是将编码器-解码器流程重新排列为多个堆叠的检测阶段,使得编码特征可以随着细化的检测预测进行迭代更新。这种设计修改为基于先前的检测结果引导的多尺度特征的有效使用奠定了基础,这将在下一节中详细介绍。

图3.迭代多尺度特征聚合(IMFA)的检测流程。IMFA采用了图2(右)中具有多个堆叠的检测阶段的流程,使得编码特征可以进行迭代更新。在此基础上,IMFA在先前的检测预测的指导下执行稀疏的多尺度特征采样。具体而言,它只关注受先前的检测预测引导的几个有希望的区域,然后在每个有希望的区域内搜索几个关键点,最后在自适应选择的尺度上对这些关键点周围的特征进行采样。IMFA还采用动态FFN来增强稀疏采样的多尺度特征的表示能力,通过将其与相应的对象查询的语义结合起来。采样的特征与编码特征一起输入到后续的检测阶段中,以进行细化的检测。为了简洁起见,只展示了前两个检测阶段。

4.迭代式多尺度特征聚合

4.1.概述

        迭代多尺度特征聚合(IMFA)是一种用于Transformer-based目标检测器(如DETR [4])中高效利用多尺度特征的通用范例。图3展示了提出的IMFA的检测流程。为了提高计算效率,IMFA利用双稀疏性的多尺度特征:(i)它根据先前的检测预测,仅从几个有高目标出现可能性的有希望的区域中采样多尺度特征;(ii)对于每个有希望的区域,它仅从几个关键点中采样具有最具信息量的特征,并在自适应选择的尺度上进行采样。双稀疏性是通过两个创新设计实现的,将在下面的子章节中详细描述。

4.2.迭代更新编码特征

        编码图像特征的迭代更新是IMFA高效利用多尺度特征的基础。如第3节所介绍的,大多数现有的基于Transformer的检测器使用固定的编码图像特征进行预测。为了通过先前的检测结果指导多尺度采样过程,IMFA重新排列了Transformer编码器-解码器的流程,如图2(右)所示。

        具体来说,IMFA不再使用堆叠的编码器层一次性生成一组固定的特征令牌,而是将检测流程重新排列为多个堆叠的检测阶段。每个检测阶段包括一个编码器层、一个解码器层和一个FFN。这种设计为在先前的检测预测的指导下动态地融合稀疏的多尺度特征奠定了基础,详细介绍在第4.3节中。值得注意的是,根据第5.3节的实验结果,仅有这种设计(如图2(右)所示,不包含多尺度特征)与基准模型相比,并没有带来性能提升。

图4. IMFA采样位置及其自适应选择的特征尺度的可视化。搜索到的采样点大多位于感兴趣的对象周围,其中许多是具有丰富语义的高度代表性的点,例如对象的极端部分。此外,IMFA为每个采样点自适应地选择适当的特征尺度,生成稀疏但信息丰富的尺度自适应特征,用于精细的检测预测。最好以彩色查看。技术附录中提供了更多的可视化结果。

4.3.稀疏特征采样和聚合

        简单地将多尺度特征直接引入编码器会导致计算复杂度过高,因为各个尺度的特征令牌数量太大,无法通过注意力机制进行处理。这促使我们只利用最具信息价值的多尺度特征。在第4.2节的基础上,IMFA进一步通过先前的检测预测作为引导,执行稀疏的多尺度特征采样,如图3所示。具体而言,IMFA首先确定了几个有高目标出现可能性的有希望的区域。然后,在每个有希望的区域内搜索几个具有代表性和信息丰富性的关键点,并在自适应选择的尺度上对它们的特征进行采样。最后,采样的特征与单尺度图像特征一起输入到后续的编码器层中,以产生精细的检测预测。

基于先前的预测识别有希望的区域。在大多数情况下,目标在图像中是稀疏分布的[27,37,58],这促使我们只利用与这些目标相关的多尺度特征。一个直观的解决方案是使用上一个检测阶段的高置信度检测预测来指导采样过程。具体而言,如图3所示,对于除第一个阶段外的每个检测阶段,我们从上一个检测阶段中选择具有最高分类置信度得分的K个预测作为有希望的区域。这里,K = N × r,其中N表示对象查询的数量,r表示IMFA的采样比例。形式上,我们将选择的框预测及其对应的对象查询表示为{(B1, Q1), ...(BK, QK)}。然后在这些有希望的区域内采样多尺度特征,这将在稍后详细介绍。由于基于Transformer的目标检测器已经使用了稀疏的一组(通常为100-300)对象查询来表示不同的对象,IMFA采样的有希望区域仍然保持稀疏,以实现高效的计算。

从代表性关键点中采样尺度自适应特征。IMFA直接从由主干网络生成的特征金字塔(在我们的实验中为ResNet的C2-C5)中采样多尺度特征。然而,即使是稀疏采样的有希望区域仍然包含大量高分辨率特征尺度的特征令牌。为了进一步稀疏采样的多尺度特征,IMFA在每个有希望区域内搜索少量代表性关键点,并以自适应选择的尺度采样它们对应的特征。如图3所示,对于每个有希望区域,IMFA首先使用对象查询在区域内预测M个关键点的位置,可以表示为:

 其中i和j分别表示查询和关键点的索引,每个关键点Pij =(xij,yij)位于其对应的框预测Bi内。然后,IMFA通过双线性插值法从特征金字塔的所有尺度中采样每个关键点的特征,得到一组特征{Fs ij}S s=1,其中S是特征尺度的数量。最后,为了强调每个关键点对不同特征尺度的独特重要性,我们提出通过预测每个关键点的尺度特定权重并通过加权求和获得尺度自适应特征:

        尺度选择权重α由线性投影γj生成,然后通过Softmax函数生成,以使得Ps αij s = 1。通过这种方式,IMFA只采样最关键和信息丰富的特征,为每个有希望的区域生成了一组稀疏但仍然高度信息丰富的多尺度特征。此外,为了进一步增强采样的多尺度特征的表示能力,我们将采样的特征输入到一个动态前馈网络(Dynamic FFN)中,通过动态加权[46]融入其对应的对象查询的语义信息,其中FFN的权重由对象查询动态生成。可以表示为:

 在这里,对于每个对象查询Qi,通过线性投影ψ对其进行动态加权Wi。然后,将Wi应用于尺度自适应特征Fij,生成具有增强语义的最终采样特征F'ij。这些采样特征以及它们基于关键点位置得到的位置嵌入,进一步传递给后续的检测阶段进行聚合。

迭代聚合多尺度特征。为了利用采样的多尺度特征进行精细的目标检测,采样特征和编码的图像特征被送入后续的编码器层进行聚合,使用注意机制。这类似于FPN [25]创建的自顶向下路径,用于增强低级特征的语义信息。为了避免特征令牌的持续增长并保持效率,每个检测阶段不继承从上一个阶段生成的多尺度特征,如图3所示。

表1:与不同基于Transformer的目标检测器的兼容性。IMFA在轻微的计算成本下提升了现有检测器的性能。“High-Res Feat”表示使用R50-DC5的高分辨率特征。‡表示DETR使用300个目标查询和焦点损失。结果报告基于COCO val 2017数据集。

4.4.可视化和分析

        图4显示了IMFA的采样位置和它们的特征尺度。可以观察到,采样位置大多在目标对象周围,并且通常位于代表性的位置,如对象的极端部位。这证明了IMFA在特征采样过程中搜索稀疏但高度信息丰富的位置的有效性。此外,值得注意的是,IMFA倾向于在小对象上集中于更高分辨率的特征,而在大对象上集中于较低分辨率的特征,这是合理的,因为小对象的检测更依赖于更细微的细节。

5.实验

        实现细节。由于提出的IMFA定义了一个通用的范式,我们主要使用DAB-DETR [29]进行实验,它是一个基于Transformer的最先进的目标检测器,具有开源实现。我们还将IMFA与DETR [4]、Conditional DETR [35]和Anchor DETR [55]进行集成,以展示其通用性。

5.1.实验设置

数据集和评估指标。我们在COCO 2017数据集[27]上进行实验。我们使用train2017中的大约117,000张图像进行训练,使用val2017中的5,000张图像进行评估。我们采用COCO的标准评估指标进行性能评估。

实现细节。由于提出的IMFA定义了一个通用的范式,我们主要使用DAB-DETR [29]进行实验,它是一个基于Transformer的最先进的目标检测器,具有开源实现。我们还将IMFA与DETR [4]、Conditional DETR [35]和Anchor DETR [55]进行集成,以展示其通用性。

        关键的实现细节涉及在Transformer编码器层之间,通过引入跳跃连接来结合编码特征,这是受到[63]和[65,66]的启发,以便促进特征语义对齐。

        对于与IMFA相关的超参数,我们将采样比例r设置为20%,关键点数量M默认为8。其他与模型相关的设置与相应的基准模型[4,29,35,55]保持一致。我们使用ImageNet预训练的ResNet作为骨干网络,并使用AdamW优化器进行训练。训练的总批次大小为16。骨干网络的初始学习率为1×10^-5,Transformer架构的初始学习率为1×10^-4,同时采用1×10^-4的权重衰减。模型进行50个epoch的训练,在第40个epoch时学习率衰减0.1。采用了与[4,29,35,55]相同的数据增强方案。

5.2.实验结果

与基于Transformer的检测器的兼容性。我们首先通过将IMFA与多个基于Transformer的目标检测器集成来评估其通用性。如第1节所讨论的,这些方法采用更高分辨率的骨干网络(标记为“高分辨率特征”)作为替代方案,因为直接处理多尺度特征在计算上是有限制的。如表1所示,使用更高分辨率的特征可以提高检测性能,但会增加显著的计算成本(+∼100 GFLOPs和-8∼15 FPS),以及GPU内存消耗。另一方面,提出的IMFA在所有指标上都显著提高了检测性能,特别是对于小物体(APS),但只引入了轻微的计算开销(+∼15 GFLOPs和-∼3 FPS)。实验结果证明了IMFA的有效性和广泛适用性。

与最先进的检测器的比较。我们将IMFA与DAB-DETR [29]集成起来,与其他利用高分辨率或多尺度特征的最先进的单阶段基于Transformer的检测器进行基准测试。我们还包括一些流行的两阶段检测器[42,47,60]进行全面比较。如表2所示,我们的方法可以达到与最先进方法相当的性能,但计算成本显著降低。

在使用更强大的骨干网络[31,32]时,如表3所示,IMFA仍然能够在较小的代价下持续提高检测性能。

表2.在COCO val 2017上与最先进的目标检测器进行比较。我们提出的方法在性能上与最先进的方法相当,但计算成本显著降低。“MS”表示使用多尺度特征。“SMS”表示使用我们提出的IMFA来处理稀疏的多尺度特征。“DC”表示使用R50-DC5的高分辨率特征。

表3.在更强的骨干网络下的结果。结果是在COCO val 2017上获得的。

表4.对IMFA的两个主要设计选择进行了消融实验。“Iter.Enc.”表示如图2(右侧)所示,对编码特征进行迭代更新。“SFSA”表示如图3所示的稀疏特征采样和聚合。

表5.对稀疏多尺度特征采样和聚合中的设计选择进行了消融实验。“Rep.Kp.”表示搜索代表性关键点。“Ada.Scale”表示自适应尺度选择。“Dy.FFN”表示动态FFN。

5.3.消融研究

        我们使用强基线DAB-DETR-R50 [15,29]进行消融实验,验证我们设计的有效性。结果是在COCO val 2017上获得的。

IMFA设计选择的效果。IMFA引入了两个新的设计选择:i)在第4.2节和图2(右侧)中描述的迭代编码,以及ii)在第4.3节和图3中描述的稀疏多尺度特征采样和聚合。如表4所示,仅迭代编码会稍微降低基线的性能。然而,通过IMFA稀疏采样的多尺度特征,我们的方法显著提高了所有尺度上的物体检测性能,特别是在较小尺度上。这证明了IMFA采样的多尺度特征既稀疏又高效用于物体检测。我们还在表5中研究了稀疏特征采样和聚合过程中的三个关键组件。如果不识别代表性关键点(而是使用随机空间采样),性能几乎没有改善,这验证了我们的论断,即只有一小部分多尺度特征是有益的。结果还验证了IMFA能够搜索具有重要语义信息的关键点。如果没有自适应尺度选择(而是使用平均尺度选择),性能会下降,这表明我们的设计使得每个物体能够聚焦于适当的尺度。如果没有动态FFN,性能也会下降,这证明动态FFN能够成功地融合与相应对象查询相关的重要语义信息,并有益于最终的预测结果。

IMFA的超参数效果。IMFA引入了两个超参数:先前检测预测和对象查询的采样比例(r)以及每个有前景的区域中的关键点数量(M)。我们对每个超参数进行了敏感性分析。当M固定为8时,表6显示了不同r值的效果。当r从10%增加到30%时,平均精度(AP)先增加后减小,而计算成本不断增加。一个有趣的趋势是,小物体的检测性能(APS)随着r的增加而持续上升。我们推测,小物体更依赖于高分辨率特征中的细节,因此它们可以从用于多尺度特征采样的有前景区域数量的增加中获益。然而,当r值过大时,整体性能会下降,我们推测这是由于涉及过多特征标记的相关特征搜索的困难增加所致。根据实验结果,我们将r的默认值设置为20%。

        为了研究关键点数量M的影响,我们通过将r固定在20%进行实验,并在表7中报告结果。我们可以看到一个类似的趋势,即性能随着M的增加而提高,但当M变得过大时性能会下降。因此,我们默认将M设置为8。

表6.关于先前检测预测采样比例r的消融实验。结果是在COCO val 2017上获得的。

表7.关于每个有前景区域中的关键点数量M的消融实验。结果是在COCO val 2017上获得的。

表8.在COCO val 2017上的人体姿态估计性能。IMFA在边际成本下大大提升了性能,甚至超过了使用高分辨率输入图像的基线方法。

5.4.拓展到人体姿势估计

        我们进一步将提出的IMFA应用于人体姿态估计,以验证其在不同任务中的普适性。具体而言,我们在COCO 2017人体姿态估计基准测试[27]上评估性能。我们采用了PRTR(两阶段变体)[21]作为基准方法,它是一种类似DETR的人体姿态估计方法,具有开源实现。有关其完整实现细节,请参考技术附录。如表8所示,在人体姿态估计任务上,IMFA仍然明显优于具有相同输入尺寸的基线方法,且只需稍微增加一点额外计算。IMFA甚至在显著降低计算成本的情况下超越了其更高分辨率的基线方法。这些结果表明,IMFA有潜力在目标检测之外的各种视觉任务中提升基于Transformer的模型。

6.总结

        多尺度特征对目标检测有益,但往往伴随着较大的计算成本。本文提出了迭代多尺度特征聚合(IMFA)作为一种创新的通用范式,用于在基于Transformer的目标检测器中高效利用多尺度特征。它兼顾了高准确性和低计算成本。IMFA仅从最有前景和信息丰富的位置识别和提取多尺度特征,并在边际增加的成本下大大提高了多个目标检测器的检测准确性。我们期望IMFA能够激发更全面的基于Transformer的目标检测研究和应用。

限制。尽管IMFA与许多基于Transformer的目标检测器兼容,但不能直接应用于Deformable DETR [72]及其扩展[43,60]。这是因为在非网格特征图上的可变形操作未定义,需要大量的工程努力来解决这个问题。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值