Deformable DETR论文翻译
论文地址:DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION
摘要
DETR最近被提出,以消除在对象检测中许多手工设计的组件的需要,同时显示良好的性能。但由于transformer注意模块在处理图像特征图时的局限性,导致收敛速度慢,特征空间分辨率有限。为了减轻这些问题,我们提出了Deformable DETR,其注意力模块只关注参考点周围的一小组关键采样点。可变形的DETR比DETR(特别是在小物体上)可以获得更好的性能,训练周期少10个。在coco基准上的大量实验证明了我们的方法的有效性。
1.介绍
现代的对象检测器使用了许多手工制作的组件(Liu et al., 2020),例如,锚点生成、基于规则的训练目标分配、非最大抑制(NMS)后处理。它们不是完全端到端的。最近,Carion等人(2020)提出了DETR,以消除对此类手工制作组件的需求,并构建了首个完全端到端对象检测器,实现了极具竞争力的性能。DETR通过结合卷积神经网络(CNNs)和transformer(Vaswani et al., 2017)的编解码器,利用了一个简单的架构。在适当设计的训练动机下,他们利用transformer的通用并且强大的关系建模能力,以取代手工制作的规则。
尽管它有趣的设计和良好的性能,DETR有它自己的问题 :
- 相比与现有的目标检测器,它需要更长的训练时间来收敛。例如,在COCO (Lin et al., 2014)基准上,DETR需要500个epoch来收敛,这比Faster R-CNN慢10到20倍(Ren et al., 2015)。
- DETR对小目标的检测性能相对较低。现代目标检测器通常利用多尺度特征,从高分辨率特征图中检测出小物体。同时,高分辨率的feature maps导致DETR不可接受的复杂性。
造成上述问题的主要原因是transformer元件在处理图像特征图时存在缺陷。在初始化时,注意模块对特征图中的所有像素施加几乎一致的注意权重。为了让注意力集中在稀疏的有意义的位置,长时间的训练是必要的。另一方面,transformer编码器的注意力权重计算是基于像素数的二次计算。因此,处理高分辨率特征图的计算和内存复杂度非常高。
在图像领域,可形变卷积(Dai et al., 2017)是一种强大而高效的处理稀疏空间位置的机制。它自然避免了上述问题。而缺少元素关系建模机制,这是DETR成功的关键。
在这篇论文里,我们提出了Deformable DETR,它可以缓解DETR收敛速度慢和复杂度高的问题。它融合了可形变卷积良好的稀疏空间采样能力和transformer的强大关系建模能力。我们提出了可变形注意模块 ,它考虑到一个小的采样位置集合作为一个预先过滤器突出关键元素的所有特征图像素。该模块可以自然地扩展到聚合多尺度特征,而无需FPN的帮助(Lin et al., 2017a)。在Deformable DETR中,我们使用(多尺度)可变形注意模块替换处理特征图的transformer注意模块,如图1所示。
Deformable DETR由于其快速收敛、计算和内存效率,为我们开发端到端对象检测器的变体提供了可能性。我们探索了一种简单有效的 迭代边界框细化机制 来提高检测性能。我们还尝试了two-stage的Deformable DETR,其中区域建议也是由一个Deformable DETR的变种生成的,这些区域建议进一步被送入解码器用于迭代边界盒细化。
在COCO (Lin et al., 2014)基准上的广泛实验证明了我们的方法的有效性。与DETR相比,Deformable DETR可以在少 10x 训练周期的情况下取得更好的性能(特别是在小物体上)。提出的two-stage Deformable DETR的改进可以进一步提高性能。
2.相关工作
有效的注意机制: transformers 涉及到自我注意和交叉注意机制。transformer最著名的问题之一是在大量关键元素数量时的高时间和内存复杂性 ,这在许多情况下阻碍了模型的扩展性。近年来,针对这一问题已经做出了很多努力(Tay et al., 2020b),在实践中大致可以分为三类:
第一类 是在键上使用预定义的稀疏注意模式,最直接的范例是将注意力模式限制为固定的局部窗口。大部分的工作都按照这个模式。虽然将注意力模式限制在局部区域可以降低复杂性,但会丢失全局信息。为了补偿这个问题,Child等人(2019年);Huang等人(2019);Ho et al.(2019)以固定的时间间隔参与键元素,显著增加键上的感受野。Beltagy等人(2020);Ainslie等人(2020);Zaheer等人(2020)允许少量特殊令牌访问所有键元素。Zaheer等(2020);Qiu等人(2019)还添加了一些预先固定的稀疏注意模式,直接参与较远的键元素。
第二类 是学习依赖于数据的稀疏注意力。Kitaev等人(2020)提出了一种基于注意力的局域敏感哈希(LSH),它将查询和关键元素哈希到不同的容器中。Roy等人(2020)提出了类似的想法,k-means找出最相关的键。Tay等人(2020a)学习了基于块的稀疏注意的块排列。
第三类 是探索自我注意的低等级属性。Wang et al.(2020)通过对尺寸维度的线性投影而不是通道维度来减少关键元素的数量。Katharopoulos等人(2020);Choromanski等人(2020)通过核化近似重写了自注意的计算。
在图像领域,有效注意机制的设计(例如,Parmar等人(2018);Child等人(2019年);Huang等人(2019);Ho等人(2019年);Hu等人(2019);Parmar等人(