Deformable DETR 论文学习

最新推荐文章于 2025-04-05 22:36:58 发布

calvinpaean

最新推荐文章于 2025-04-05 22:36:58 发布

阅读量1.2w

点赞数 32

分类专栏：图像识别目标检测深度学习

本文链接：https://blog.csdn.net/calvinpaean/article/details/113789556

版权

深度学习同时被 3 个专栏收录

139 篇文章

订阅专栏

目标检测

86 篇文章

订阅专栏

图像识别

81 篇文章

订阅专栏

Abstract

DETR 提出在目标检测方法中去除人为组件，也可保持优异性能。但由于 Transformer 注意力模块只能有限地处理图像特征图，它的收敛速度就比较慢，特征空间分辨率有限。为了缓解这些问题，作者提出了 Deformable DETR，其注意力模块只会关注目标框周围少量的关键采样点。Deformable DETR 能够取得比 DETR 更优异的性能（尤其在小物体上），训练 epochs 要少 $10\times$ 倍。在 COCO 基准上大量的实验证明了该方法的有效性。代码位于： https://github.com/fundamentalvision/Deformable-DETR。

1. Introduction

目前的目标检测器都使用了许多人为组件，比如 anchor 生成、基于规则的训练目标分配机制、NMS 后处理等。它们都不是完全端到端的。最近 Carion 等人提出了 DETR 来去除人为组件，第一次构建了一个完全端到端的目标检测器，取得了优异的表现。DETR 利用一个简单的结构，将 CNN 和 Transformer 编码器-解码器结合起来使用。他们利用 Transformer 强大而通用的关系建模能力，在正确设计的训练信号指导下，代替人为规则。

尽管 DETR 的设计很有意思，而且表现不错，但是也有几个问题：(1) 需要更长的训练时间来收敛。例如，在 COCO 基准上，DETR 需要500个 epochs 才能收敛，要比 Faster R-CNN 慢了10-20倍。(2) DETR 对小目标检测表现相对较差。当前的目标检测器通常使用多尺度特征，从高分辨率特征图上可以检测小目标。而对 DETR 来说，高分辨率特征图意味着高复杂度。这些问题主要可以归结为 Transformer 缺乏处理图像特征图的组件。在初始化时，注意力模块对特征图上的所有像素点分配几乎相同的注意力权重。长训练时间对于注意力权重的学习是非常必要的，从而能关注到稀疏而有价值的位置。另一方面，Transformer 编码器的注意力权重的计算，相对于像素个数来说是平方计算的。因此，要处理高分辨率特征图，其计算量是非常高的，内存复杂度也是非常高的。

在图像领域，deformable 卷积是一个强大而高效的机制，来处理稀疏空间位置。它天然地避免了上述了问题。而它缺乏元素间关系建模的机制，这是 DETR 成功的关键。

本文中作者提出了 Deformable DETR，加快 DETR 的收敛速度，并降低高复杂度问题。它将 deformable 卷积的最佳稀疏空间采样方法和 Transformer 的关系建模能力结合起来。作者提出了 deformable 注意力模块，对所有的特征图像素点进行预筛，关注到很少的采样位置。该模块能够天然地扩展到聚合多尺度特征，无需 FPN 的帮助。在 Deformable DETR 中，作者使用了（多尺度）deformable 注意力模块替换 Transformer 注意力模块，来处理特征图，如图1所示。

在这里插入图片描述

Deformable DETR 开启了探索端到端目标检测器的机会，因为它收敛很快，内存消耗和计算量都较低。作者研究了一个简单而有效的迭代的边框优化机制，提升检测表现。作者也尝试了一个双阶段Deformable DETR，通过一个Deformable DETR的变体来生成候选边框，输入解码器来进行迭代的边框优化。

在 COCO 基准的大量实验证明了该方法的有效性。与 DETR 相比，Deformable DETR 能够取得更优的性能（尤其在小目标上），训练时间少了 $10\times$ 。双阶段 Deformable DETR 的变体模型能够进一步提升性能。代码位于https://github.com/fundamentalvision/Deformable-DETR

2. Related Work

高效率注意力机制。Transformer 包括了自注意力机制和跨注意力机制。Transformer 最为人所诟病的就是其时间和内存复杂度过高，key 元素个数太多了，这阻碍了模型的应用范围。最近，人们致力于解决这个问题，方向大致可以分为三类。

第一类就是对keys使用预先定义的稀疏注意力模式。最直接的范式就是将注意力模式限定为固定的局部窗口。很多工作都延续了这个范式。尽管限定注意力模式为一个局部窗口能够降低复杂度，但是会失去全局信息。为了弥补，Child 等人、Huang 等人、Ho 等人以固定的间隔来关注 key 元素，极大地增加了 keys 的感受野。Beltagy 等人、Ainslie 等人和 Zaheer 等人允许很少的、特殊的 tokens 获取到所有的 key 元素。Zaheer 等人、Qiu 等人也增加了一些预先定义的稀疏注意力模式，直接关注距离较远的 key 元素。

第二类就是学习依赖于数据的稀疏注意力。Kitaev 等人提出了一个基于注意力的局部敏感哈希（Locality sensitive hash），将 query 和 key 元素用哈希表示，放入不同的 bins 中。Roy 等人提出了一个相似的想法，k-means 找到最相关的 keys。Tay 等人为 block-wise 稀疏注意力，学习 block 排列。

第三个类别就是探索自注意力的低秩特性。Wang 等人通过对尺寸维度而非通道维度做线性映射，降低 key 元素的个数。Katharopoulos 等人、Choromanski 等人通过内核近似重述了自注意力的计算过程。

在图像领域，高效率注意力机制的设计仍然受限于第一类方法。尽管理论上降低了复杂度，Parmar 等人、Hu 等人承认，因为内存读取的限制，这些方法在实际操作中要远远慢于传统的卷积操作（至少慢了 $3\times$ ），即便 FLOPs 是一样的。

另一方面，卷积有许多的变体，如 deformable 卷积和动态卷积，它们也可看作为自注意力机制。Deformable 卷积在图像识别任务上，要比 Transformer 自注意力更加有效和高效。但是它缺乏元素关系建模的机制。

本文提出的 deformable 注意力模块受到 deformable 卷积的启发，属于第二个类别。它只关注在很少的、固定数量的采样点上，这些采样点由 query 元素的特征预测而来。与 Parmar 等人、Hu 等人的方法不同，在相同 FLOPs 的情况下，deformable 注意力只比传统卷积慢一点点。

目标检测的多尺度特征表示。目标检测中的一个主要难点就是在不同的尺度上有效地表示目标。目前的检测器通常使用了多尺度特征来解决这个问题。FPN 提出了一个自上而下的路径来结合多尺度特征。PANet 则在 FPN 基础上又增加了一个自下而上的路径。Kong 等人通过一个全局注意力操作，将所有尺度的特征结合起来。Zhao 等人提出了一个 U-形状的模块来融合多尺度特征。最近，NAS-FPN 和 Auto-FPN 提出可通过神经结构搜索方法，自动地设计跨尺度连接。Tan 等人提出了 BiFPN，将 PANet 简化版重复多次使用。本文多尺度 deformable 注意力模块能够通过注意力机制天然地聚合多尺度特征图，无需 FPN 的帮助。

3. 回顾 Transformers 和 DETR

Transformer 的 Multi-head 注意力。Transformer 是一种基于注意力机制的网络结构，用于机器翻译。给定一个 query 元素（比如输出句子中的一个目标单词），以及一个 key 元素组成的集合（比如，输入句子中的源单词），multi-head注意力模块自适应地根据注意力权重，将 key 内容聚合起来，该权重能衡量 query-key 对的兼容性。为了让模型关注在不同表示子空间和不同位置上的内容，我们用可学习的权重来线性地聚合不同注意力 heads 的输出。以 $q\in \Omega_q$ 表示一个 query 元素的索引，表示特征 $z_q\in \mathbb{R}^C$ ， $k\in \Omega_k$ 是key元素的索引，表示特征是 $x_k \in \mathbb{R}^C$ ，其中 $C$ 是特征维度， $\Omega_q,\Omega_k$ 分别表示 query 和 key 元素的集合。然后，计算 multi-head 注意力特征：

$\text{MultiHeadAttn}(z_q, x) = \sum_{m=1}^M W_m[\sum_{k\in \Omega_k} A_{mqk} \cdot W_m' x_k]$

其中 $m$ 是注意力 head 的索引， $W_m'\in\mathbb{R}^{C_v \times C}$ 和 $W_m\in \mathbb{R}^{C\times C_v}$ 是可学习的权重（默认 $C_v=C/M$ ）。注意力权重 $A_{mqk} \propto \exp\{\frac{z_q^T U_m^T V_m x_k}{\sqrt C_v}\}$ 通过 $\sum_{k\in \Omega_k} A_{mqk}=1$ 做归一化，其中 $U_m, V_m\in \mathbb{R}^{C_v\times C}$ 也是可学习的权重。为了消除不同空间位置的歧义，表示特征 $z_q$ 和 $x_k$ 通常会和位置 embeddings 进行 concat 或求和操作。

Transformer 主要有2个问题。一个是 Transformer 需要很长的训练时间，才能收敛。假设 query 和 key 元素的个数是 $N_q, N_k$ 。通常，参数初始化合理的话， $U_mz_q, V_mx_k$ 的分布会是均值为0，方差为1的分布，这样注意力权重 $A_{mqk}\approx \frac{1}{N_k}$ ，其中 $N_k$ 很大。它会给输入特征带来模糊的梯度。所以，我们就需要较长的训练时间，这样注意力权重才能关注到特定的 keys 上。在图像领域中，key 元素通常是图像像素点， $N_k$ 就非常大，收敛就很慢。

另一方面，multi-head 注意力的计算复杂度和时间复杂度会非常高。等式1的计算复杂度是 $O(N_q C^2 + N_k C^2 + N_q N_k C)$ 。在图像领域，query 和 key 元素都是像素点， $N_q = N_k \gg C$ ，复杂度主要由第三项控制， $O(N_q N_k C)$ 。因此，multi-head 注意力模块的复杂度就相对特征图大小呈平方增长。

DETR。DETR 构建于 Transformer 编码器-解码器之上，结合使用了匈牙利损失，该损失通过二分匹配为每个 ground-truth 边框分配唯一的预测框。作者下面简要地回顾了该网络结构。

给定由 CNN 主干网络提取的输入特征图 $x\in \mathbb{R}^{C\times H\times W}$ ，DETR 利用一个标准的 Transformer 编码器-解码器架构对输入特征图做变换，得到目标 queries 集合的特征。然后在解码器输出的目标 query 特征上面，有一个三层前馈神经网络（FFN）和一个线性映射操作作为检测 head。FFN 扮演着回归分支，预测边框的坐标 $b\in [0,1]^4$ ，其中 $b=\{b_x,b_y,b_w,b_h\}$ 编码归一化后的边框中心坐标、边框宽度和高度（相对于图像大小）。线性映射则扮演着分类分支的功能，输出分类结果。

对于 DETR 中的 Transformer 编码器，query 和 key 元素都是特征图上的像素点。输入是 ResNet 特征图（加上编码了的位置 embedding）。 $H, W$ 分别表示特征图的高度和宽度。自注意力的计算复杂度就是 $O(H^2W^2C)$ ，与空间大小呈平方增长。

对于 DETR 中的 Transformer 解码器，输入包括编码器的特征图、位置 embeddings 表示的 $N$ 个目标 queries（比如 $N = 100$ ）。解码器中一共有两类注意力模块，跨注意力和自注意力模块。在跨注意力模块中，目标 queries 从解码器特征图上提取特征。Query 元素属于目标 queries，key元素则属于编码器输出的特征图。 $N_q=N,N_k=H\times W$ ，跨注意力的复杂度是 $O(HWC^2 +NHWC)$ 。复杂度与特征图大小呈线性增长关系。在自注意力模块中，目标queries彼此之间相互交流，从而获取彼此的关系。Query 和 key 元素都属于目标 queries。 $N_q=N_k=N$ ，自注意力模块的复杂度是 $O(2NC^2 +N^2C)$ 。当目标queries数量不多时，复杂读是可以接受的。

DETR 对于目标检测任务来说很有吸引力，去除了人为组件。但是它也有自己的问题。这些问题主要可以归结为 Transformer 注意力无法将图像特征图作为 key 元素处理：(1) DETR 在处理小目标时表现不好。当前的检测器都使用了高分辨率特征图来更好地检测小目标。但是，高分辨率特征图意味着高复杂度，这是 DETR 中 Transformer 编码器的自注意力模块难以接受的，它与输入特征图的大小呈平方复杂度关系。(2) 与目前的检测器相比，DETR 需要更多的训练时间才能收敛。这主要是因为处理图像特征的注意力模块很难训练。例如在开始时，跨注意力模块几乎是整个特征图注意力的平均值。而在训练结束时，注意力图非常稀疏，只关注在目标极值上。似乎 DETR 需要一个很长的训练时间来学会注意力图的这种转变。

4. 方法

4.1 用于端到端目标检测的 Deformable Transformers

Deformable 注意力模块。在图像特征图上应用 Transformer 注意力的关键问题就是，它会关注所有可能的空间位置。为了解决这个问题，作者提出了deformable注意力模块。受到 deformable 卷积的启发，deformable 注意力模块只会关注参考点附近少量的关键采样点，不管特征图的空间大小是多少。通过为每个 query 分配较少数量的 keys，收敛和特征空间分辨率的问题就得到了缓解。

给定输入特征图 $x\in \mathbb{R}^{C\times H\times W}$ ，用 $q$ 作为一个 query 元素的索引，其特征表示是 $z_q$ ，二维参考点 $p_q$ ，deformable 注意力特征的计算如下：

$\text{DeformAttn}(z_q, p_q, x) = \sum_{m=1}^M W_m [\sum_{k=1}^K A_{mqk} \cdot W_m' x(p_q + \Delta p_{mqk})]$

其中 $m$ 是注意力head的索引， $k$ 是采样 keys 的索引， $K$ 是所有采样 key 的个数（ $\ll HW$ ）。 $\Delta p_{mqk}$ 和 $A_{mqk}$ 分别表示第 $m$ 个注意力head中第 $k$ 个采样点的采样偏移量和注意力权重。标量注意力权重 $A_{mqk}$ 位于 $[0, 1]$ 之间，用 $\sum_{k=1}^K A_{mqk}=1$ 做归一化。 $\Delta p_{mqk} \in \mathbb{R}^2$ 是二维实数，取值范围没有限制。因为 $p_q + \Delta p_{mqk}$ 是小数，故采用了双线性插值，与计算 $x(p_q + \Delta p_{mqk})$ 一样。 $\Delta p_{mqk}$ 和 $A_{mqk}$ 是对 query 特征 $z_q$ 做线性映射得到的。在实现时，query 特征 $z_q$ 输入进一个有 $3 M K$ 个通道的线性映射操作符，前 $2 M K$ 个通道编码采样偏移量 $\Delta p_{mqk}$ ，剩下的 $M K$ 个通道则输入进一个 softmax 操作符，得到注意力权重 $A_{mqk}$ 。

Deformable 注意力模块是为处理卷积特征图设计的，将之作为 key 元素使用。 $N_q$ 是 query 元素的个数，当 $M K$ 较小时，deformable 注意力模块的复杂度就是 $O(2N_qC^2 + \min (HWC^2, N_qKC^2))$ 。当用在 DETR 编码器时（ $N_q = HW$ ），复杂度就变成了 $O(HWC^2)$ ，这和特征图空间大小就呈线性增长了。当它用在 DETR 解码器时（ $N_q=N$ ，N是目标query的个数），复杂度就是 $O(NKC^2)$ ，这和特征图大小 $H W$ 就没关系了。

多尺度Deformable注意力模块。大多数目标检测框架都从多尺度特征图上受益。本文的 deformable 注意力模块也可天然地扩展使用多尺度特征图。

让 ${x^l\}_{l=1}^L$ 表示输入多尺度特征图，七中 $x^l \in \mathbb{R}^{C\times H_l \times W_l}$ 。 $\hat p_q \in [0,1]^2$ 表示每个 query 元素 $q$ 的参考点归一化后的坐标。多尺度 deformable 注意力模块就可表示为：

$\text{MSDeformAttn}(z_q, \hat p_q, \{x^l\}_{l=1}^L) = \sum_{m=1}^M W_m [\sum_{l=1}^L \sum_{k=1}^K A_{mlqk} \cdot W_m' x^l(\phi_l(\hat p_q) + \Delta p_{mlqk})]$

其中 $m$ 是注意力head的索引， $l$ 是特征图层级的索引， $k$ 是采样点的索引。 $\Delta p_{mlqk}$ 和 $A_{mlqk}$ 分别表示第 $m$ 个注意力head在第 $l$ 个特征层级上第 $k$ 个采样点的采样偏移量和注意力权重。标量注意力权重 $A_{mlqk}$ 用 $\sum_{l=1}^L \sum_{k=1}^K A_{mlqk}=1$ 做了归一化。这里，作者使用归一化坐标 $\hat p_q\in [0,1]^2$ 为了尺度表述更清晰，归一化的坐标 $(0, 0)$ 和 $(1, 1)$ 分别表示图像的左上角点和右下角点。函数 $\phi_l(\hat p_q)$ 对归一化的坐标 $\hat p_q$ 重新做了缩放，符合第 $l$ 个特征图层级。多尺度 deformable 注意力和之前的单尺度版本很像，除了它会从多尺度特征图上采样 $L K$ 个点，而不是单词度特征图的 $K$ 个点。

当 $L = 1, K = 1$ 时，该注意力模块会退化为 deformable 卷积， $W_m'\in \mathbb{R}^{C_v\times C}$ 是一个单位矩阵。Deformable 卷积是为单尺度输入设计的，对每个注意力head只关注一个采样点。但是，本文的多尺度deformable注意力会关注多尺度输入上的多个采样点。该多尺度 deformable 注意力模块可以看作为 Transformer 注意力的一个高效变体，通过deformable采样来引入预过滤机制。如果采样点覆盖了所有可能的位置，则该注意力模块和 Transformer 注意力等价。

Deformable Transformer 编码器。作者将 DETR 中处理特征图的 Transformer 注意力模块替换为了多尺度 deformable 注意力模块。编码器的输入和输出是多尺度特征图，它们的分辨率是相同的。在编码器中，我们从 ResNet 的 $C_3$ 到 $C_5$ stage 输出的特征图中，提取多尺度特征图 ${x^l\}_{l=1}^{L-1}(L=4)$ （通过 $1\times1$ 卷积变换），其中 $C_l$ 的分辨率要比原始输入图像低 $2^l$ 倍。对最后的 $C_5$ stage 使用步长为2的 $3\times 3$ 卷积，得到分辨率最低的特征图 $x^L$ ，记作 $C_6$ 。所有的多尺度特征图都是 $C = 256$ 通道的。注意，作者没有用FPN自上而下的结构，因为本文的多尺度 deformable 注意力本身就可以交换多尺度特征图的信息。多尺度特征图的构建在附录A.2中有介绍。5.2章节的实验表明，加入 FPN 不会提升性能。

在编码器中使用多尺度 deformable 注意力模块，输出的多尺度特征图的分辨率和输入是相同的。Key 和 query 元素都是多尺度特征图上的像素点。对于每个 query 像素点，参考点就是它自己。为了识别 query 像素点来自于哪个特征层级，除了位置 embedding，作者在特征表示中增加了一个尺度层级 embedding，记作为 $e_l$ 。与编码是固定的位置 embedding 不同，尺度层级 embedding ${e_l\}_{l=1}^L$ 是随机初始化的，与网络协同训练。

Deformable Transformer 解码器。在解码器中包含了跨注意力模块和自注意力模块。对于这俩注意力模块来说，query 元素就是目标 queries。在跨注意力中，目标 queries 从特征图中提取特征，key 元素是从编码器的输出特征图上获取的。在自注意力中，目标 queries 彼此作用，key 元素来自于目标 queries。因为本文的 deformable 注意力模块目的是将卷积特征图作为 key 元素处理，作者只将跨注意力模块替换为了多尺度 deformable 注意力模块，而自注意力模块没变。对于每个目标 query，我们通过一个可学习的线性映射和一个sigmoid函数，从它的目标query embedding中预测参考点 $\hat p_q$ 的二维归一化坐标。

因为多尺度 deformable 注意力模块是在参考点附近提取图像特征，所以我们用检测 head 来预测关于参考点的相对偏移量，得到边框，从而降低优化的难度。开始时，模型盲猜边框的中心位置就是这些参考点。检测 head 预测关于这些参考点的相对偏移量。附录A.3有更多的细节信息。这样，解码器注意力就和预测边框有着更紧密的联系，加速训练收敛。

通过替换Transformer 注意力模块为 deformable 注意力模块，我们就可以构建一个高效率、快速收敛的检测方法，叫作 Deformable DETR。

4.2 Deformable DETR 的额外改进和变体形式

Deformable DETR 为端到端目标检测器开启了新的机遇，因为它收敛速度快、计算和内存效率高。因为篇幅有限，作者只介绍了几个改进的核心思想和变体形式。附录A.4提供了实现细节。

迭代的边框优化。这是受光流估计（Teed和Deng,2020）中迭代优化方法的启发而来。作者构建了一个简单而有效的迭代边框优化机制，提升检测表现。这里，每个解码器层都基于前一层的预测结果来优化边框。

双阶段 Deformable DETR。在原来的 DETR 中，解码器中的目标 queries 与当前图像无关。受到双阶段目标检测器的启发，作者探索了 Deformable DETR 的变体形式，将生成候选框作为第一阶段。生成的候选框会输入解码器，作为目标 queries 进一步优化，形成双阶段的 Deformable DETR。

在第一个阶段中，多尺度特征图上的每个像素点都会作为目标 query 使用，产生高召回率的候选框。但是，直接将目标queries设定为像素点，会造成解码器自注意力模块的计算量和内存消耗难以接受，因为它们的复杂度是伴随着 queries 个数呈平方增长。为了解决这个问题，作者去除了解码器，得到了一个只有编码器的 Deformable DETR，用于候选框生成。每个像素点都作为一个目标query，直接预测边框。得分最高的边框作为候选框。在将候选框输入进第二个阶段之前，没有使用 NMS。