目标检测——【Transformer】Accelerating DETR Convergence via Semantic-Aligned Matching

论文
代码

文章侧重点

想要解决的问题:

DEFR收敛速度太慢,如此高的训练成本【DERT在COCO训练集上要训练500个epoch才能收敛,相比之下Faster R-CNN只要12~36个epoch就可以收敛】是因为在匹配query与特征映射空间中的开销,也就是对应的交叉注意力(cross-attention)的计算过程。这个过程是将一个随机赋值的Object query训练成一个可以从特征中通过加权突出待检测目标的query,这个过程需要不断训练。
该过程如下图所示:
在这里插入图片描述
交叉注意机制的计算公式如下:
在这里插入图片描述
从实现效果的角度来看,交叉注意力的计算也可以解释为“匹配和特征蒸馏"的过程。 如公式所示,交叉注意力的实现包含了两部分含义:

  • 将Object query与Encoded Feature有关的区域进行匹配。相当于Object query与Encoded Feature进行全局计算相似度,找到感兴趣区域,因为是对Encoded特征的全局计算,所以这个操作非常耗时。 这一步计算完成之后,会得到上中的Attention Weight Map。可以看到图中某些区域得到了增强。
  • 从匹配到的区域中再度提取特征。相当于对某些已经得到注意的区域进行再次强调,故得到Distilled Features。

基于上述观察,本文提出了对这个匹配过程进行优化!

Sematic-Aligned-Matching DERT

本文提出的语义对齐匹配方法,简称为SAM-DERT。旨在保持DERT的精度的同时,加速DERT。 所以首先文章开篇分析了当前DERT中的交叉注意力机制中存在的问题,并以此为突破口,设计了一个即插即用的头——SAM-DERT,嵌入交叉注意力模块中,为Object query与Encoded Feature有关的区域匹配之前,加入一个强有力的关于目标的先验信息,从而加速”匹配"过程。

网络结构

SAM-DERT

在这里插入图片描述
由上图可知,本文提出的这个即插即用的模块在DERT中的应用咋如图位置,在交叉注意力模块之前。

Semantics Aligner

在这里插入图片描述
整个语义对齐模块的实现如上图。一共可以分为三个部分:语义对齐的匹配、显著点特征的匹配、信息损失的补偿。

语义对齐的匹配

所谓“语义对齐”,就是将Object query和Encoded Feature映射到同一个Embedding空间。 原始DERT中在Object query的初始化阶段是将它随机映射到一个特征空间,所以在交叉注意力机制中就需要对Encoded Feature所有空间位置进行匹配。故现在的思路就是,一开始就给一些先验知识给Object query,使得Object query和Encoded Feature在相同的嵌入空间,以提升效率。
实现:
在这里插入图片描述

  1. 根据上图中的公式2,首先引入一个reference box向量 R b o x R_{box} Rbox,用于对Encoded Feature F F F作RoIAlign,生成区域级(region-level)的特征 F R F_R
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值