该论文为Transformer跨界论文,在原有的DETR的基础上做出改进,并且在COCO 2017数据集上取得了理想的成绩。该模型针对DETR收敛速度慢,训练时间长和对小物体检测效果不理想进行了相应的改进。
网络结构
该论文与DETR结构类似,同样也是由CNN进行特征的提取,通过Transformer模块进行特征和位置编码解码。
1.主干网络
Deformable DETR的主干网络也是采用的CNN进行特征提取,该论文主要使用了ResNet-50和ResNet-101作为主干网络,在ImageNet上进行了预训练。
2.Transformer结构
该论文对Transformer的结构做出了改进,将其中的attention机制进行改进,在下文中将对改进做出具体介绍。
提出的创新或改进
该论文针对DETR收敛速度慢和对小目标检测效果不理想分别进行了改进。1.针对收敛速度慢进行了attention机制的改进,2.针对小目标检测效果不理想增加了多尺度特征来提升检测效果。
1.Deformable attention机制
原始的DETR采用的使self-attention机制和cross-attention,但是cross-attention只关注全局的信息,并不关注局部的信息。而本文的改进的attention机制(multi-scale Deformable Attention Module)是以可变卷积为原型进行设计的,会对多尺度feature map进行采样,并且会提取关键点周围的特征信息,因此multi-scale attention 更关注局部的信息,并且通过对多尺度特征进行采样,曾加了对小目标检测的效率。通过对每个query分配少量的固定的key,来缓解收敛和特征分辨率的问题。
D
e
f
o
r
m
A
t
t
n
(
z
q
,
p
q
,
x
)
=
∑
m
=
1
M
W
m
[
∑
k
=
1
K
A
m
q
k
W
m
′
x
(
p
q
+
△
p
m
q
k
)
]
DeformAttn(z_q,p_q,x) = \sum_{m=1}^MW_m\lbrack\sum_{k=1}^KA_{mqk}W'_mx(p_q+\triangle p_{mqk})\rbrack
DeformAttn(zq,pq,x)=m=1∑MWm[k=1∑KAmqkWm′x(pq+△pmqk)]
其中m为multi-head的head索引,k为采样点的索引,
A
m
q
k
A_{mqk}
Amqk为第m个head的第k个采样点的注意权重,
Δ
p
m
q
k
Δp_{mqk}
Δpmqk为偏移量。并且
A
m
q
k
A_{mqk}
Amqk通过
∑
k
=
1
K
A
m
q
k
=
1
\sum_{k=1}^KA_{mqk}=1
∑k=1KAmqk=1进行归一化。
M
S
D
e
f
o
r
m
A
t
t
n
(
z
q
,
p
^
q
,
{
x
l
}
l
=
1
L
)
∑
m
=
1
M
W
m
[
∑
l
=
1
L
∑
k
=
1
K
A
m
q
k
W
m
′
x
l
(
∅
l
(
p
^
q
)
+
△
p
m
q
k
)
]
MSDeformAttn(z_q,\widehat p _q, \{x^l\}_{l=1}^L)\sum_{m=1}^MW_m\lbrack\sum_{l=1}^L\sum_{k=1}^KA_{mqk}W'_mx^l(\varnothing_l(\widehat p _q)+\triangle p_{mqk})\rbrack
MSDeformAttn(zq,p
q,{xl}l=1L)m=1∑MWm[l=1∑Lk=1∑KAmqkWm′xl(∅l(p
q)+△pmqk)]
多尺度可变注意可以将多尺度特征作为输入,
{
x
l
}
l
=
1
L
\{x^l\}_{l=1}^L
{xl}l=1L表示多尺度特征。从多尺度特征图中采样LK个采样点。当L=1, K=1以及
W
m
′
W'_m
Wm′为固定矩阵的时候,多尺度注意模块将变成可变形卷积。
2.两个变体
Iterative Bounding Box Refinement:通过不断迭代细化Bounding Box来提高检测性能,每个解码器层都是基于前一层的预测来改进Bounding Box。
Two-Stage Deformable DETR:从两阶段目标检测得到启发,首先第一阶段生成区域建议。第二阶段再将区域建议当作对象查询输入解码器进行进一步细化。
模型的训练
1.数据集的使用
本文使用的MS COCO数据集,并且在ImageNet上进行预训练。
2.模型的初始化和训练
本文的主干网络采用的在ImageNet进行预训练过的ResNet-50。M(head个数)=8,K(采样点个数)=4。边界盒和类别损失的损失函数使用的是Focal Loss,采用了50个epoch作为训练周期,是DETR训练周期的十分之一。
实验结果与分析
该论文与当前在COCO 2017数据集上SOTA的模型进行了对比实验,并且通过消融实验验证了各模块的有效性。
1.消融实验
通过对多尺度特征输入,多尺度注意和采样点的消融实验得出多尺度特征输入和多尺度注意对模型的性能有显著提升,采样点个数K=4时可以提高模型性能。通过对FPN是否添加的比较,可以看出FPN的多尺度特征提取对该模型几乎没有影响。
2.与DETR进行对比
通过上图可以看出Deformable DETR通过更少的训练周期和时间取得了更好的性能,并且两个变体也取得了极佳的性能。
3.与SOTA模型进行比较
改进后的模型性能已经不弱于SOTA模型,并且有些方面甚至超过了SOTA模型的性能,但是就小目标检测来说,效果仍旧不理想。
4.结论
该论文提出的模型,通过改进attention机制,加快了模型的收敛速度,降低了训练时间,并且在COCO2017数据上取得了不错的成绩。