DETR
能够消除物体检测中许多手工设计组件的需求,同时展示良好的性能。但由于注意力模块在处理图像特征图方面的限制,DETR
存在收敛速度慢和特征分辨率有限的问题。为了缓解这些问题,论文提出了Deformable DETR
,其注意力模块仅关注参考点周围的一小组关键采样点,通过更少的训练次数实现比DETR
更好的性能来源:晓飞的算法工程笔记 公众号
论文: Deformable DETR: Deformable Transformers for End-to-End Object Detection
Introduction
现代物体检测器采用许多手工制作的组件,例如锚点生成、基于规则的训练目标分配、非极大值抑制 (NMS
) 后处理,导致其并不是完全端到端的。DETR
的提出消除了对此类手工制作组件的需求,并构建了第一个完全端到端的物体检测器。DETR
采用简单的架构,结合卷积神经网络 (CNN
) 和Transformer
编码器-解码器,利用Transformer
的多功能且强大的关系建模功能,达到了很不错的性能。
尽管DETR
具有有趣的设计和良好的性能,但它也有自己的问题:(1)需要更长的训练周期才能收敛。(2)DETR
在检测小物体方面的性能相对较低,没有利用多尺度特征。
上述问题主要归因于Transformer
组件在处理图像特征图方面的缺陷。在初始化时,注意力模块将几乎统一的注意力权重投射到特征图中的所有像素。长时间的训练对于注意力权重学习如何关注稀疏的有意义的位置是必要的。另一方面,Transformer
编码器中的注意力权重计算与像素成二次计算度。因此,处理高分辨率特征图的计算和存储复杂度非常高。
在图像领域,可变形卷积是处理稀疏空间位置的强大而有效的机制,自然就避免了上述问题。但它缺乏元素关系建模机制,而这正是DETR
成功的关键。
在本文中,论文提出了Deformable DETR
,结合可变形卷积的稀疏空间采样和Transformers
的关系建模能力,缓解了DETR
收敛速度慢和计算复杂度高的问题。可变形注意模块仅关注一小组采样位置,相当于所有特征图像素中突出关键元素的预过滤器。该模块可以自然地扩展到多尺度特征架构,而无需FPN
的帮助。在Deformable DETR
中,论文利用(多尺度)可变形注意力模块来代替处理特征图的Transformer
注意力模块,如图 1 所示。
Revisiting Transformers and DETR
Multi-Head Attention in Transformers.
定义 q ∈ Ω q q\in\Omega_{q} q∈Ωq 为查询元素下标,索引特征 z q ∈ R C {z}_{q}\in {\mathbb{R}}^C zq∈RC , k ∈ Ω k k\in\Omega_{k} k∈Ωk 为键元素下标,索引特征 x _ k ∈ R C x\_k \in \mathbb{R}^C x_k∈RC, C {C} C 是特征维度, Ω q \Omega_{q} Ωq 和 Ω _ k \Omega\_{k} Ω_k 分别为查询元素和键元素的集合。
多头注意力特征的计算可表示为:
$$
\mathrm{MultiHeadAttn}(z_{q},x)=\sum_{m=1}^{M}W_{m}[\sum_{k\in\Omega_{k}}A_{m q k}\cdot W_{m}^{\prime}x_{k}],
\quad\quad (1)
$$
其中 m m m 为注意力头下标, W m ′ ∈ R C v × C W_{m}^{\prime}\in\mathbb{R}^{C_{v}\times C} Wm′∈RCv×C 和 W m ∈ R C × C v W_{m}\in{\mathbb{R}^{{C}\times C_{v}}} Wm∈RC×Cv 为可学习的权重(默认 C v = C / M {C}_{v}=C/M Cv=C/M)。注意力权重 A m q k ∝ e x p { z q T U m T V m x k C v } A_{m q k}\propto{exp}\lbrace\frac{z_{q}^{T}\,U_{m}^{T}\,\,V_{m}\,x_{k}}{\sqrt{C_{v}}}\rbrace Amqk∝exp{CvzqTUmTVmxk} 归一化为 ∑ k ∈ Ω k A m q k = 1 \sum_{k\in\Omega_k}A_{mqk}=1 ∑k∈ΩkAmqk=1,其中 U m , V m ∈ R C v × C U_{m},V_{m}\in\mathbb{R}^{C_{v}\times C} Um,Vm∈RCv×C 也是可学习的权重。为了区别不同的空间位置,特征 z q {z}_{q} zq 和 z _ k {z}\_{k} z_k 通常是元素内容和位置嵌入的串联或求和。
Transformer
有两个已知问题:1)收敛需要很长的训练周期。2)多头注意力的计算和内存复杂度可能非常高。
DETR
DETR
建立在Transformer
编码器-解码器架构之上,与基于集合的匈牙利损失相结合,通过二分匹配强制对每个GT
的边界框进行预测。对DETR
不熟悉的,可以看看之前的文章,【DETR:Facebook提出基于Transformer的目标检测新范式 | ECCV 2020 Oral】。
给定CNN
主干网提取的输入特征图
x
∈
R
C
×
H
×
W
x\in\mathbb{R}^{C\times H\times W}
x∈RC×H×W,DETR
利用标准Transformer
编码器-解码器架构将输入特征图转换为一组对象查询的特征。在对象查询特征(由解码器产生)之上添加一个 3 层前馈神经网络(FFN
)和一个线性投影作为检测头。FFN
充当回归分支来预测边界框坐标
b
∈
0
,
1
4
b\in 0, 1^4
b∈0,14,其中
b
=
b
x
,
b
y
,
b
w
,
b
h
b = {b_{x},b_{y},b_{w},b_{h}}
b=bx,by,bw,bh 编码归一化的框中心坐标、框高度和框宽度(相对于图像大小),线性投影则作为分类分支来产生分类结果。
对于DETR
中的Transformer
编码器,查询元素和键元素都是主干网络特征图中的像素(带有编码的位置嵌入)。
对于DETR
中的Transformer
解码器,输入包括来自编码器的特征图和由可学习位置嵌入表示的N
个对象查询。解码器中有两种类型的注意力模块,即交叉注意力模块和自注意力模块。
- 在交叉注意力模块中,查询元素为学习到的对象查询,而键元素是编码器的输出特征图。
- 在自注意力模块中,查询元素和键元素都是对象查询,从而捕获它们的关系。
DETR
是一种极具吸引力的物体检测设计,无需许多手工设计的组件,但也有自己的问题:1)由于计算复杂度限制其可使用分辨率的大小,导致Transformer
在检测小物体方面的性能相对较低。2)因为处理图像特征的注意力模块很难训练,DETR
需要更多的训练周期才能收敛。
METHOD
Deformable Transformers for End-to-End Object Detection
- Deformable Attention Module
在图像特征图上应用注意力计算的核心问题是,它会遍历所有的空间位置。为了解决这个问题,论文提出了一个可变形的注意力模块。受可变形卷积的启发,可变形注意力模块仅关注参考点周围的一小组关键采样点,而不管特征图的空间大小。如图 2 所示,通过为每个查询元素仅分配少量的键元素,可以缓解收敛慢和特征空间分辨率大的问题。
给定输入特征图 x ∈ R C × H × W x\in\mathbb{R}^{C\times H\times W} x∈RC×H×W , q q q 为查询元素的下标,对应内容特征 z q {z}_{q} zq 和二维参考点 p q {p}_{q} pq,可变形注意力特征的计算如下
$$
\mathrm{DeformAttn}(z_{q},p_{q},x)=\sum_{m=1}{M}W_{m}\sum_{k=1}{K}A_{m q k}\cdot W_{m}^{\prime}x(p_{q}+\Delta p_{m q k}),
\quad\quad (2)
$$
其中
m
m
m 为注意力头下标,
k
k
k 为采样点下标,
K
K
K 为采样点总数(
K
≪
H
W
K\ll H W
K≪HW )。
Δ
p
m
q
k
{\Delta}p_{mqk}
Δpmqk 和
A
m
q
k
A_{m q k}
Amqk 表示第k
个采样点的采样偏移及其使用的在第m
个头中的注意力权重。注意力权重
A
m
q
k
A_{m q k}
Amqk 在
0
,
1
0,1
0,1 范围内,由
∑
k
=
1
K
A
m
q
k
=
1
\sum_{k=1}^{K}A_{m q k} = 1
∑k=1KAmqk=1 归一化。
Δ
p
m
q
k
∈
R
2
{\Delta}p_{mqk}\in \mathbb{R}^{2}
Δpmqk∈R2是无约束范围的二维实数,由于
p
q
+
Δ
p
m
q
k
p_{q} + \Delta p_{mqk}
pq+Δpmqk 是小数,需要应用双线性插值。
Δ
p
m
q
k
\Delta p_{m q k}
Δpmqk 和
A
m
q
k
A_{mqk}
Amqk 均通过对查询特征
z
q
{z}_{q}
zq 的线性投影获得的。在实现中,查询特征
z
q
z_{q}
zq 被输入到
3
M
K
3MK
3MK 通道的线性投影运算符,其中前
2
M
K
2MK
2MK 通道对
Δ
P
m
q
k
{\Delta}P_{m q k}
ΔPmqk 采样偏移进行编码,剩余的
M
K
MK
MK 通道输入到
S
o
f
t
m
a
x
Softmax
Softmax 运算符以获得
A
m
q
k
A_{m q k}
Amqk 注意力权重。
定义
N
q
N_{q}
Nq 为查询元素的数量,当
M
K
M K
MK 相对较小时,可变形注意力模块的复杂度为KaTeX parse error: Undefined control sequence: \* at position 28: …}+\operatorname\̲*̲{min}(H W C^{2}…。当应用于__DETR
__编码器时,其中
N
q
=
H
W
N_{q}=H W
Nq=HW ,复杂度变为
O
(
H
W
C
2
)
O(H W C^{2})
O(HWC2),与空间大小成线性复杂度。当应用于DETR
解码器中的交叉注意模块时,其中
N
_
q
=
N
N\_{q}=N
N_q=N (
N
N
N 是对象查询的数量),复杂度变为
O
(
N
K
C
2
)
O(NKC^2)
O(NKC2),这与空间大小
H
W
HW
HW无关。
- Multi-scale Deformable Attention Module
大多数现代目标检测框架都受益于多尺度特征图,论文提出的可变形注意模块也可以自然地扩展到多尺度特征图。
定义 KaTeX parse error: Expected '}', got '\right' at position 12: \left{x^{l}\̲r̲i̲g̲h̲t̲}^{L}_{l=1} 为输入的多尺度特征图,其中 x l ∈ R C × H l × W l x^{l}\in \mathbb{R}^{C\times H_{l}\times W_{l}} xl∈RC×Hl×Wl。定义 p ^ q ∈ 0 , 1 2 {\hat{p}}_{q}\in0,1^{2} p^q∈0,12 为每个查询元素 q q q 对应的参考点的归一化坐标,多尺度可变形注意模块的计算为:
$$
\mathrm{MSDeformAttn}(z_{q},\hat{p}{q},{x{l}}_{l=1}{L})=\sum{m=1}{M}W_{m}\bigl[\sum_{l=1}{L}\sum_{k=1}^{K}A_{m l q k}\cdot W_{m}{\prime}x{l}(\phi_{l}(\hat{p}{q})+\Delta p{m l q k}\bigr)\bigr],
\quad\quad (3)
$$
其中 m m m 为注意力头下标, l l l 为输入特征级别下标, k k k 为采样点下标。 Δ p m l q k \Delta p_{mlqk} Δpmlqk 和 A m l q k A_{mlqk} Amlqk 表示第 k t h {{k}}^{th} kth 个采样点在第 l t h {{l}}^{th} lth 个特征级别和第 m t h {{m}}^{th} mth 个注意头中的采样偏移和注意力权重,其中标量注意力权重 A m l q k A_{mlqk} Amlqk 由 ∑ l = 1 L ∑ k = 1 K A m l q k = 1 \sum^L_{l=1}\sum^K_{k=1}A_{mlqk}=1 ∑l=1L∑k=1KAmlqk=1 归一化。为了缩放方便,使用归一化的坐标 p ^ q ∈ 0 , 1 2 {\hat{p}}_{q}\in0,1^{2} p^q∈0,12,其中 ( 0 , 0 ) (0,0) (0,0) 和 ( 1 , 1 ) (1,1) (1,1) 分别表示图像的左上角和右下角。公式 3 中的函数 ϕ l ( p ^ q ) ⋅ \phi_{l}{({\hat{p}}_{q})}^{\cdot} ϕl(p^q)⋅ 将归一化坐标 p ^ q {\hat{p}}_{q} p^q 重新缩放到第 l t h {l}^{th} lth 级别的输入特征图的坐标。多尺度可变形注意力与之前的单尺度版本非常相似,只是它从多尺度特征图中采样 L K LK LK 个点,而不是仅从单尺度特征图中采样 K K K 个点。
当 L = 1 L=1 L=1, K = 1 K=1 K=1 以及将 W m ′ ∈ R C v × C W^{'}_{m}\in \mathbb{R}^{{C}_{v}\times C} Wm′∈RCv×C 固定为单位矩阵时,论文所提出的注意力模块即退化为可变形卷积。
可变形卷积是针对单尺度输入而设计的,每个注意力头仅关注一个采样点,而论文的多尺度可变形注意力会关注来自多尺度输入的多个采样点。(多尺度)可变形注意模块也可以被视为Transformer
注意力的有效变体,可变形采样位置相当于引入预过滤机制。当采样点为所有位置时,可变形注意力模块相当于Transformer
注意力。
- Deformable Transformer Encoder
将DETR
中处理特征图的注意力模块替换为多尺度可变形注意力模块,编码器的输入和输出都是具有相同分辨率的多尺度特征图。
将ResNet
的
C
3
C_3
C3 到
C
_
5
C\_5
C_5 阶段的输出特征图,通过
1
×
1
1\times 1
1×1 卷积提取多尺度特征图 KaTeX parse error: Expected '}', got '\right' at position 12: \left{x^{l}\̲r̲i̲g̲h̲t̲}_{l=1}^{L-1}(
L
=
4
L=4
L=4),其中
C
l
C_{l}
Cl 的分辨率为输入图像的
2
l
2^{l}
2l 倍降采样。最低分辨率特征图
x
L
x^{L}
xL 是通过对
C
_
5
C\_5
C_5 阶段的输出进行步幅为 2 的
3
×
3
3\ \times\ 3
3 × 3 卷积获得,表示为
C
6
C_{6}
C6 阶段。所有多尺度特征图都是
C
=
256
C=256
C=256 通道。这里没有使用类似FPN
的自上而下结构,因为论文提出的多尺度可变形注意力本身就可以在多尺度特征图之间交换信息,添加FPN
并不会提高性能。
在编码器中应用多尺度可变形注意力模块时,输出是与输入具有相同分辨率的多尺度特征图,键和查询元素都是来自多尺度特征图的像素。对于每个查询像素,参考点是其本身。为了确定每个查询像素位于哪个特征级别,除了位置嵌入之外,还在特征中添加了尺度级别嵌入 e _ l e\_{l} e_l。与固定编码的位置嵌入不同,尺度级嵌入是随机初始化并与网络联合训练的。
- Deformable Transformer Decoder
解码器中有交叉注意力和自注意力模块,两种类型的注意力模块的查询元素都是对象查询。在交叉注意力模块中,键元素是编码器的输出特征图,对象查询通过与特征图交互提取特征。而在自注意力模块中,键元素也是对象查询,对象查询即相互交互提取特征。
由于可变形注意模块的设计初衷是将卷积特征图作为键元素,因此论文仅将交叉注意模块替换为多尺度可变形注意模块,保持自注意模块不变。对于每个对象查询,参考点 p ^ _ q {\hat{p}}\_{q} p^_q 的二维归一化坐标是通过带 s i g m o i d \mathrm{sigmoid} sigmoid 函数的可学习线性投影从对象查询嵌入中预测的。
由于多尺度可变形注意模块提取参考点周围的图像特征,论文将参考点作为边界框中心的初始猜测,然后检测头预测边的相对偏移量。这样,不仅能够降低优化难度,还能让解码器注意力将与预测的边界框具有很强的相关性,加速训练收敛。
Additional Improvements and Variants for Deformable DETR
由于其快速收敛以及高效率的计算,可变形DETR
为各种端到端目标检测器的变体提供了可能性,比如:
- Iterative Bounding Box Refinement:通过级联的方式,每层解码器优化前一层的预测结果。
- Two-Stage Deformable DETR:通过两阶段检测的方式,选择第一阶段预测的高分区域提案作为第二阶段解码器的对象查询。
EXPERIMENT
表 1 展示了与Faster R-CNN
+FPN
、DETR
的性能对比。
表 2 列出了所提出的可变形注意模块的各种设计选择的消融实验。
表 3 与其他最先进的方法进行了比较。
如果本文对你有帮助,麻烦点个赞或在看呗~undefined更多内容请关注 微信公众号【晓飞的算法工程笔记】