Team-DETR:作为检测变压器专业团队指导查询

摘要

最近提出的DETR变体由于其简化的流程和显著的性能,在各种场景中取得了巨大的进步。然而,学习的查询通常会探索全局上下文来生成最终的集合预测,这会导致重复的负担和不真实的结果。更具体地说,查询通常负责不同规模和位置的对象,这对查询本身是一个挑战,并将导致查询之间的空间资源竞争。为了缓解这个问题,我们提出了团队DETR,它利用查询协作和位置约束来更精确地包含感兴趣的对象。我们还动态地满足每个查询成员的预测偏好,为查询提供更好的规模和空间优先级。此外,所提出的团队DETR足够灵活,可以在不增加参数和计算的情况下适应现有的DETR变体。在COCO数据集上进行的大量实验表明,DETR团队取得了显著的成果,尤其是对于小型和大型物体。代码位于 https://github.com/horrible-dong/TeamDETR

介绍

 许多后续工作致力于提高查询的可预测性。一个查询现在被分离为一个内容和一个单独的空间[14]。空间查询被建模为锚点[14,15]或锚框[16],在训练期间不断更新。然而,目前的工作只给查询一个明确的物理含义。查询通常负责不同规模和位置的对象。这对查询本身来说是一个挑战,而且查询之间还会存在空间资源竞争。
 在本文中,我们致力于作为一个专业团队有效地指导Queries。在不增加参数和计算的情况下,我们通过在规模和空间方面为查询分配函数来加强查询之间的分工.

图1:具有不同锚框请添加图片描述
比例的查询的预测框分布。在基于锚框的DETR变体(a)[16,17,18]中,空间查询被指定为锚框(在图中为黑框)。如果没有对查询行为的特定约束,将导致过度的预测尺度方差。此外,每个查询的管理区域相对较大。当两个锚盒靠近在一起时,将不可避免地引起空间资源的竞争。我们建议的团队DETR(b)通过指定查询的分工来解决上述问题。

 如图1(a)所示,相同的查询将被分配给不同图像中尺度方差过大的目标,这对学习过程构成了挑战。我们在解码器端对查询进行分组,并指定每个组只负责特定范围内的对象。对相同规模范围负责的查询将协同工作以找到最佳匹配。此外,如图1(a)所示,所有查询都负责相对较大的区域。这会导致分配区域边缘的资源竞争,从而阻碍团队的发展。因此,我们提出了职位限制,以使他们各自的责任领域更加集中,避免不必要的内部冲突。此外,我们动态地提取每个查询的预测偏好,为其提供了改进的规模和空间优先级。
 我们的贡献是提出了一个团队DETR,它包含了一个新的查询协作框架,作为一个专业团队指导查询。作为查询互适性的必要补充,在尺度和空间位置方面,团队成员的功能以合理的方式分配和约束,并动态调整以适应成员的引用。所提出的团队DETR可以无缝集成到其他现有的DETR变体中,而不增加参数或计算,并在COCO[19]基准上实现了显著的改进,特别是对于小型和大型对象,这证明了其有效性和通用性。图1(b)显示了团队DETR中查询的预测框分布。请添加图片描述

图2:提议的团队DETR的框架,其基于DAB-DETR的基本架构。CNN主干用于提取图像特征,然后由变压器编码器融合。解码器利用几个学习到的查询来匹配图像特征的对象。查询表示为锚框(x,y,w,h),并根据解码器每层预测的偏移量(∆x,∆y,∆w,∆h)动态更新。在此基础上,我们引入了一种查询团队方法,其中对查询进行分组,每个组负责特定范围内的对象。为了避免资源竞争,每个查询的管理区域都受到限制。此外,动态地提取每个查询的预测偏好,并相应地更新锚点.

方法

我们提出了团队DETR,它改进了解码器上的查询,而无需添加额外的参数或计算。核心思想是将查询作为一个团队来运作,使团队管理至关重要。需要澄清查询成员之间的分工。考虑到对象的规模,我们对查询成员进行分组,每个组负责预测规模范围内的对象。组成员一起确定tar get对象的最佳匹配。在空间位置方面,我们对团队成员施加位置约束,以将他们的注意力限制在图像中的特定区域。为了最大化每个团队成员的能力,我们动态地分析每个查询的预测偏好,并相应地更新锚点。
图2显示了团队DETR的框架。我们遵循DETR的基本架构,并基于DAB-DETR进行改进。由于我们只改进了空间查询,因此在下文中,术语“查询”特指“空间查询”。接下来,我们将讨论团队合作的每一部分。
 如图1(a)所示,在缺乏指导的情况下,查询必须预测具有过度尺度方差的对象,这无形中增加了其学习难度。因此,我们提出了一种按比例分组的方法。原始查询被分成多个组,每个组负责预测特定比例范围内的对象。
 首先,定义K尺度范围 [ S k ] k = 1 k {{[S_k]}_{k=1}^k} [Sk]k=1k, S k = ( s k m i n , s k m a x ] S_k=({s}_{k}^{min},{s}_{k}^{max}] Sk=(skmin,skmax]。这里,我们使用相对尺度而不是卷积检测器中常用的绝对尺度,[27]不同于卷积。卷积提取局部特征,而注意力提取全局特征。这表明在变压器中,使用绝对比例是不合理的,因为对象比例是参照全局上下文的。因此,采用了相对尺度。然后,标度在0和1之间归一化,K标度范围 S k k = 1 k {{S_k}_{k=1}^k} Skk=1k将覆盖归一化范围(0,1],如下所示:
请添加图片描述

将查询划分为k组,第k组 Q k Q_k Qk n k n_k nk q i q_i qi组成,分组查询集Q可以表述如下。

请添加图片描述

N为原始查询总数,在变换中,第i个查询 q i q_i qi通过正弦位置编码 P E s i n ( ⋅ ) PE_{sin}(·) PEsin()和多层感知机MLP将锚框 A i A_i Ai映射到高维空间获得。

请添加图片描述

锚定框 A i A_i Ai=( x i , y i , w i , h i {x_i},{y_i},{w_i},{h_i} xi,yi,wi,hi),D表示 q i q_i qi维度,当初始化锚框时,所有锚框中心的(x,y)随机均匀分布在图像中,定义了缩放范围和查询组后,我们规定第k组查询 Q k Q_k Qk负责第k个缩放范围 S k S_k Sk内的对象

请添加图片描述

在上述准备工作之后,查询将被输入到变换器解码器,利用图像特征执行自我注意和交叉注意。自我关注使查询能够相互交流,为后续匹配的对象引起关注做好准备。同一组内的查询可以进行快速通信,但为了防止无关信息的干扰,不同组成员之间的通信受到了限制。因此,我们定义了注意力掩码 M = [ m i j ] N × N M =[{m_{ij}}]_{N\times N} M=[mij]N×N。对于第k组查询,相应的掩码元素计算请添加图片描述

在建议的团队DETR中,使用输入图像I,分组查询集Q和所有对象Obj之间的最终匹配结果δ(Q,Obj)计算如下:
请添加图片描述

其中F(·,·,·)表示DETR的映射函数,H(·,)表示匈牙利匹配算法,⊎表示加入每组的匹配结果

请添加图片描述

图3:(a)查询的框预测。具有较高置信度的预测框倾向于分布在锚框的中心附近。(b) 每个查询都有其对预测框的比例、形状和位置的偏好。黑色框是初始锚点,黄色框是通过以高置信度获取预测框的平均值而获得的更新锚点,表示查询的预测偏好。

位置约束

使用锚框初始化查询可以获得空间位置先验。如图3(a)所示,我们观察到具有较高置信度排名的预测框倾向于分布在锚框的中心附近。当查询彼此接近时,由于查询数量多,资源竞争很可能发生在管理区域的边缘。这些内部冲突导致边缘附近预测框的置信度低。因此,我们将查询的预测限制在靠近锚框中心的特定区域,以减少竞争并增加具有较高置信度的预测框的数量
B − i B-i Bi为第i个查询 q i q_i qi的预测框,当预测框 B i B_i Bi和锚框 A i A_i Ai的中心点之间的距离超过阈值η时,对预测框惩罚,位置损失loss如下
在这里插入图片描述

其中σ是要处罚的box数量

偏好提取

团队成员将在完成每项任务时展示各自的优势。如图3(b)所示,每个查询对预测框的比例、形状和位置都有自己的偏好。为了更好地挖掘它们的潜力,我们以高置信度从预测框中提取查询的预测偏好,并将该偏好用作新的锚框。首选项提取动态更新优先级。在每个时期后的验证过程中执行
B i B_i Bi是所有验证信息 q i q_i qi的预测框集,从 B i B_i Bi中选择具有最高置信度的τ框,并取其平均值以获得融合框 A ˇ i \check{A}_i Aˇi A ˇ i \check{A}_i Aˇi q i q_i qi的偏好,用作更新的锚框 A i A_i Ai。可以表示为请添加图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值