论文链接:链接
Deformable DETR
前人出现的问题:
DETR采用了Transformer的注意力机制,在处理图像过程中会产生收敛速度过慢以及所采取的特征图空间分辨率不能过大的现象。这是由于注意力机制的本质造成的,注意力模块在初始化的时候,倾向于给所有特征图上的像素分配一样的权重,因此需要较多的训练次数让权重集中到有意义的位置上。
可变形卷积处理稀疏的空间位置十分有效,但是他没有像DETR一样建立元素之间的联系。
Deformable DETR
Deformable DETR 结合了可变形卷积的稀疏空间采样和Transformer的关系建模能力,它的注意力机制只集中在参考点周围所选取的固定的K个采样点上,与DETR相比能够获得更好的效果,尤其是针对小物体而言。
整体框架

我们从ResNet的主干网络中提取了多尺度特征图,如上图所示,所有的特征图的通道数都是256,其中 C l C_l Cl比原始图像小 2 l 2^l 2l倍。

在编码器部分,我们将Transformer中的注意力机制替换为本文所采用的多尺度可变形注意力机制,在多尺度可变形注意力机制中,编码器的输入输出都具有相同的分辨率,且key和query元素都来自于多尺度特征图中的像素,对于每一个query元素,他的参考点都是自己本身。为了将不同尺度下查询像素分割开来,我们增加了一个层级嵌入 { e l } l = 1 L \{e_l\}_{l=1}^L { el}l=1L,该层级嵌入随机初始化并与网络联合训练。
解码器部分包含交叉注意力机制和自注意力机制两个模块,两个注意力机制中的query元素都来自于对象查询,在交叉注意力机制模块中,key来自于编码器输出的特征图,query用来提取特征图里的特征;在自注意力机制中,key元素也是object query,自我进行交互用来获取和周围之间的联系。由于可变形注意力机制需要关注特征图信息,因此我们将交叉注意力机制替换为可变形注意力机制。每一个对象查询通过可学习的线性投影以及sigmoid函数得到二维的参考坐标,我们将参考点作为bbox中心坐标的初始猜测。
如上图所示,针对于多尺度的特征图,在encoder中,每个query产生的参考点都是自己本身,而在decoder中,参考点是由query经过线性投射预测出来,且query本身和位置编码相加还要去预测偏移量和权重。
Deformable Attention Module

在Deformable Attention Module 我们需要确定三点信息:reference point p q p_q pq、offset Δ p m q k \Delta p_{mqk} Δpmqk、权重矩阵 A m q k A_{mqk} Amqk,这些信息都是由query元素产生的。
在处理图像特征的时候,Transformer中注意力机制的一个主要问题是去查看所有可能的空间位置,但计算量巨大,不能处理分辨率较高的图片。为了解决上述问题,我们提出了可变形注意力机制:可变形注意力机制只关注参考点周围的几个重要的采样点,不考虑特征图的空间大小,能够解决收敛速度较慢以及特征空间分辨率不能过大的问题。
如上图所示,给定一个输入特征图 x ∈ R C × H × W x\in R^{C\times H\times W} x∈R

DeformableDETR解决了DETR在处理图像时的收敛速度慢和特征图分辨率受限的问题,通过引入可变形卷积,聚焦于参考点周围的采样点,提高对小物体检测的准确性。它结合多尺度特征图和可变形注意力机制,加速了收敛并支持更高的空间分辨率。
最低0.47元/天 解锁文章
863

被折叠的 条评论
为什么被折叠?



