DAB-DETR论文学习记录

彭祥.

已于 2023-03-30 19:06:24 修改

阅读量938

点赞数

分类专栏： DETR系列文章标签：学习深度学习人工智能

于 2023-03-30 17:19:10 首次发布

本文链接：https://blog.csdn.net/pengxiang1998/article/details/129860076

版权

DETR系列专栏收录该内容

50 篇文章 41 订阅

订阅专栏

摘要

在本文中，1.我们提出了一种使用动态锚框进行DETR（DEtection TRansformer）的新颖查询公式，并提供了对查询在DETR中的作用的更深入理解。这个新公式直接使用框坐标作为转换器解码器中的查询，2.并逐层动态更新它们。使用框坐标不仅有助于使用显式位置先验来提高查询特征相似性并消除 DETR 中缓慢的训练收敛问题，3.而且还允许我们使用框宽度和高度信息来调节位置注意力图。这样的设计清楚地表明，DETR 中的查询可以作为以级联方式逐层执行软 ROI 池化来实现。因此，在相同设置下，在类似 DETR 的检测模型中，它在 MS-COCO 基准测试上具有最佳性能，例如，使用 ResNet50-DC5 作为在 50 个时期训练的主干的 AP 45.7%。我们还进行了广泛的实验，以验证我们的分析并验证我们方法的有效性。代码可在 https://github.com/SlongLiu/DAB-DETR 获得。

介绍

对象检测是计算机视觉中应用广泛的一项基本任务。大多数经典检测器都基于卷积架构，这些架构在过去十年中取得了显着进展（Ren等人，2017 年;吉尔希克，2015 年;雷德蒙等人，2016;博奇科夫斯基等人，2020;葛等人，2021 年）。最近，Carion 等人（2020 年）提出了一种名为 DETR （DEtection TRansformer）的基于变压器的端到端探测器，它消除了对手工设计组件（例如锚点）的需求，并且与现代基于锚点的探测器（如 Faster RCNN）相比显示出有前途的性能（Ren 等人，2017 年）。

与基于锚点的检测器相比，DETR 将对象检测建模为集合预测问题，并使用 100 个可学习的查询来探测和汇集图像中的特征，从而无需使用非最大抑制即可进行预测。但是，由于其无效的设计和查询使用，DETR 的训练收敛速度明显较慢，通常需要 500 个 epoch 才能获得良好的性能。为了解决这个问题，许多后续工作试图改进 DETR 查询的设计，以实现更快的训练收敛和更好的性能（Zhu 等人，2021 年;高等人，2021;孟等人，2021;王等人，2021 年）。

尽管这些研究取得了所有进展，但learned queries在 DETR 中的作用仍未得到充分理解或利用。虽然以前的大多数尝试都使 DETR 中的每个查询更明确地与一个查询相关联，具体的空间位置而不是多个位置，技术方案有很大差异。例如，Conditional DETR 通过根据其内容特征调整查询来学习条件空间查询，以便更好地与图像特征匹配（Meng 等人，2021 年）。Efficient DETR 引入了一个密集的预测模块来选择 top-K 对象查询（Yao 等人，2021 年），Anchor DETR 将查询表述为 2D 锚点（Wang 等人，2021 年），两者都将每个查询与特定的空间位置相关联。同样，Deformable DETR 直接将 2D 参考点视为查询，并在每个参考点执行可变形交叉注意力操作（Zhu 等人，2021 年）。但上述所有工作都仅利用 2D 位置作为锚点，而不考虑对象比例。（即目标尺度差异）

在这些研究的推动下，我们仔细研究了 Transformer 解码器中的交叉注意力模块，并建议使用锚框，即 4D 框坐标（x，y，w，h），作为 DETR 中的查询，并逐层更新它们。这个新的查询公式通过考虑每个锚框的位置和大小，为交叉注意力模块引入了更好的空间先验，这也导致了更简单的实现和对查询在 DETR 中的作用的更深入理解。
这个公式背后的关键见解是，DETR 中的每个查询都由两部分组成：内容部分（解码器自注意输出）和位置部分（例如 DETR 中的可学习查询）。交叉注意力权重是通过将query与一组key进行比较来计算的，该key由内容部分（编码图像特征）和位置部分（位置嵌入）两部分组成。因此，Transformer Encoder中的查询可以解释为基于查询到特征相似性度量的特征映射中的池化特征，该度量考虑了内容和位置信息。内容相似性用于池化语义相关的特征，而位置相似性则用于围绕查询位置池化特征提供位置约束。这种注意力计算机制促使我们将查询表述为锚框，如图所示。1 （c），允许我们使用锚框的中心位置（x，y）来汇集中心周围的特征，并使用锚框大小（w，h）来调制交叉注意力图，使其适应锚框大小。此外，由于使用坐标作为查询，锚框可以逐层动态更新。通过这种方式，DETR 中的查询可以实现为以级联方式逐层执行软 ROI 池化。

图1：改进模型差异

在这里插入图片描述

图 1：DETR、条件 DETR 和我们提议的 DAB-DETR 的比较。为清楚起见，我们只显示转换器解码器中的交叉注意力部分。
（a） DETR 对所有层使用可学习的查询，无需任何调整，这解释了其训练收敛缓慢的原因。
（b）条件 DETR 调整各层的可学习查询，主要是为了从图像特征图集中为池化特征提供更好的参考查询点。
（c） DAB-DETR直接使用动态更新的锚框来提供参考查询点（x，y）和参考锚点大小（w，h），以改进交叉注意力计算。我们用紫色标记了模块的差异。

我们通过使用锚框大小来调节交叉注意力，为池化特征提供更好的位置先验。由于交叉注意力可以汇集整个特征图中的特征，因此在每个查询之前提供适当的位置以使交叉注意力模块专注于与目标对象对应的局部区域至关重要。它还有助于加快DEPR的培训收敛。大多数先前的工作通过将每个查询与特定位置相关联来改进 DETR，但它们假设固定大小的各向同性高斯位置先验，这不适用于不同尺度的对象。利用每个查询锚框中提供的大小信息（w，h），我们可以将高斯位置先验调制为椭圆形。更具体地说，我们分别从交叉注意力权重（softmax之前）中划分其x部分和y部分的宽度和高度，这有助于高斯先验更好地与不同尺度的对象匹配。为了进一步改善位置先验，我们还引入了一个温度参数来调整位置注意力的平坦度，这在之前的所有工作中都被忽略了。

总之，我们提出的DAB-DETR（动态锚框DETR）通过直接学习锚点作为查询，提出了一种新的查询公式。此公式提供了对查询作用的更深入理解，允许我们使用锚点大小来调制转换器解码器中的位置交叉注意力映射，并逐层执行动态锚点更新。我们的结果表明，在COCO对象检测基准的相同设置下，DAB-DETR在类DETR架构中获得了最佳性能。当使用单个ResNet-50（He等人，2016）模型作为训练50个epoch的骨干时，所提出的方法可以实现45.7%的AP。我们还进行了广泛的实验，以验证我们的分析并验证我们方法的有效性。

DAB-DETR

在这里插入图片描述

概述

继 DETR（Carion 等人，2020 年）之后，我们的模型是一个端到端的对象检测器，其中包括 CNN 骨干网、Transformer（Vaswani 等人，2017 年）编码器和解码器，以及box和标签的预测头。我们主要改进解码器部分，如图5所示。
给定图像，我们使用CNN骨干提取图像空间特征，然后使用Transformer编码器来细化CNN特征。然后，将包括位置查询（锚框）和内容查询（解码器嵌入）在内的双重查询馈送到解码器中，以探测与定位点相对应且与内容查询具有相似模式的对象。对偶查询逐层更新，逐步接近目标真实对象。最终解码器层的输出用于通过预测头对带有标签和框的对象进行预测，然后进行二分图匹配以计算DEPR中的损失。
为了说明我们的动态锚框的通用性，我们还设计了一个更强大的DABDeformable-DETR，可在附录中找到。

直接学习锚框

正如第 1 节中关于查询在 DETR 中的作用所讨论的那样，我们建议直接学习查询框或说锚框，并从这些锚点派生位置查询。每个解码器层有两个注意力模块，包括一个自注意力模块和一个交叉注意力模块，分别用于查询更新和特征探测。每个模块都需要查询、键和值来执行基于注意力的值聚合，但这些三元组的输入不同。
我们将 Aq = （xq，yq，wq，hq）表示为第 q 个锚点，xq，yq，wq，hq ∈ R 表示，Cq∈ R^D ， Pq ∈ R^D 作为其对应的内容查询和位置查询，其中 D 是解码器嵌入和位置查询的维度。
给定一个锚点 Aq，其位置查询 Pq 由下式生成：

Pq = MLP(PE(Aq))

其中 PE 表示位置编码以从浮点数生成正弦嵌入，并且 MLP 的参数在所有层之间共享。由于 Aq 是四元数，我们在这里重载 PE 运算符：

PE(Aq) = PE(xq,yq,wq,hq) = Cat(PE(xq),PE(yq),PE(wq),PE(hq)).

Cat 的概念意味着连接函数。在我们的实现中，位置编码函数 PE 将浮点数映射到具有 D/2 维的向量，如下所示：PE：R → R^D/2。因此，函数 MLP 将 2D 维度向量投影到 D 维度：MLP：R^2D → R^D。MLP模块有两个子模块，每个子模块由一个线性层和一个ReLU激活组成，特征约简在第一个线性层进行。
在自我注意模块中，所有三个查询、键和值都具有相同的内容项，而查询和键包含额外的位置项：

Self-Attn: Qq = Cq + Pq, Kq = Cq + Pq, Vq = Cq,

受条件 DETR（Meng 等人，2021 年）的启发，我们将位置和内容信息作为交叉注意力模块中的查询和键连接在一起，以便我们可以解耦内容和位置对查询特征相似性的贡献，该相似性计算为查询和键之间的点积。为了重新缩放位置嵌入，我们还利用了条件空间查询（Meng 等人，2021 年）。更具体地说，我们学习一个 MLP（csq）：R^D → R^D 来获取基于内容信息的条件尺度向量，并使用它来执行位置嵌入的逐元素乘法：

Cross-Attn:
Qq = Cat(Cq,PE(xq,yq) · MLP(csq)(Cq))
Kx,y = Cat(Fx,y,PE(x,y)),
Vx,y = Fx,y,

其中 Fx，y ∈ R^D 是位置（x，y）的特征图， ·是逐元素乘法。查询和键中的位置嵌入都是基于 2D 坐标生成的，这使得比较位置相似性更加一致，就像之前的工作一样（Meng 等人，2021 年;王等人，2021 年）。

锚点更新

使用坐标作为学习查询可以逐层更新它们。相比之下，对于高维嵌入的查询，例如在 DETR（Carion 等人，2020 年）和条件 DETR（Meng 等人，2021 年）中，很难执行逐层查询细化，因为不清楚如何将更新的锚点转换回高维查询嵌入。
遵循先前的做法（朱等人，2021 年;Wang 等人，2021 年），我们在通过预测头预测相对位置（∆x，∆y，∆w，∆h）后更新每层中的锚点，如图5.所示。请注意，不同层中的所有预测头共享相同的参数。
在这里插入图片描述

宽度和高度调制

在这里插入图片描述
传统的位置注意力图被用作类似高斯先验的，如图6所示。但是先验只是假设所有对象的各向同性和固定大小，而忽略了它们的比例信息（宽度和高度）。为了改善位置先验，我们建议将比例尺信息注入到注意力图中。
原始位置注意力图中的查询到键相似性计算为两个坐标编码的点积之和：
在这里插入图片描述

Attn((x,y),(xref,yref)) = (PE(x) · PE(xref) + PE(y) · PE(yref))/ D,

其中 1/ D 用于重新缩放 Vaswani 等人（2017）中建议的值。我们通过分别划分其 x 部分和 y 部分的相对锚点宽度和高度来调节位置注意力图（在 softmax 之前），以便在更好地与不同尺度的对象匹配之前平滑高斯图：
在这里插入图片描述

其中 wq 和 hq 是锚点 Aq 的宽度和高度，wq，ref 和 hq，ref 是参考宽度和高度，计算公式为：

wq,ref,hq,ref = σ(MLP(Cq)).

这种调制的位置注意力有助于我们提取不同宽度和高度的物体的特征，调制注意力的可视化如图 6 所示。

TEMPERATURE TUNING

对于位置编码，我们使用正弦函数（Vaswani等人，2017），其定义为：
PE , PE ,

其中T是手工设计的温度，上标2i和2i + 1表示编码向量中的索引。方程（8）中的温度T会影响位置先验的大小，如图所示。7. T越大，注意力图越扁平，反之亦然。请注意，温度T在（Vaswani等人，2017）中硬编码为10000，用于自然语言处理，其中x的值是代表每个单词在句子中的位置的整数。但是，在 DETR 中，x 的值是介于 0 和 1 之间的浮点数，表示边界框坐标。因此，视觉任务非常需要不同的温度。在这项工作中，我们在所有模型中根据经验选择T = 20。

实验

我们在附录 A 中提供了培训详细信息。

主要结果

表2显示了我们对COCO 2017验证集的主要结果。我们将我们提议的DABDETR与DETR（Carion等人，2020），Faster RCNN（Ren等人，2017），Anchor DETR（Wang等人，
2021）、SMCA（高等人，2021）、可变形DETR（朱等人，2021）、TSP（Sun等人，2020）和条件DETR（Meng等人，2021）。我们展示了模型的两种变体：标准模型和标有上标∗的模型，它们有 3 个模式嵌入（Wang 等人，2021 年）。我们的标准模型以很大的优势优于条件 DETR。我们注意到我们的模型引入了GFLOP的轻微增加。GFLOP可能因计算脚本而异，我们使用作者在表2中报告的结果。实际上，我们在测试中发现，标准模型的GFLOP与基于GFLOPs计算脚本的相应条件DETR模型几乎相同，因此在相同设置下，我们的模型仍然比以前的工作具有优势。当使用模式嵌入时，我们的DAB-DETR具有∗在所有四个主干上的表现优于以前的类似DETR的方法，并且有很大的余量，甚至比多尺度架构还要好。它验证了我们分析的正确性和设计的有效性。

在这里插入图片描述

表 2：我们的 DAB-DETR 和其他检测模型的结果。除 DETR 外，所有类似 DETR 的模型都使用 300 个查询，而 DETR使用 100 个查询。带有上标∗的模型使用 3 个模式嵌入，如 Anchor DETR 中一样（Wang 等人，2021年）。我们还在附录G和附录C中提供了更强大的DAB-DETR结果。

在这里插入图片描述
表 3：我们的 DAB-DETR 的消融结果。所有型号均通过 ResNet-50-DC5 主干网进行测试，其他参数与我们的默认设置相同。

消融实验

表 3 显示了我们模型中每个组件的有效性。我们发现，我们提出的所有模块都对我们的最终结果做出了显着贡献。锚点公式（比较第3行和第4行）将AP从44.0%提高到45.0%，锚点更新引入了1.7%的AP改进（比较第1行和第2行），证明了动态锚框设计的有效性。
去除调制注意力和温度调整后，模型性能分别降至 45.0%（比较第 1 行和第 3 行）和 44.4%（比较第 1 行和第 5 行）。因此，位置注意力的细粒度调整对于提高检测性能也非常重要。

结论

在本文中，我们提出了一种使用动态锚框进行 DETR 的新查询公式，并提供了对查询在 DETR 中的作用的更深入理解。使用锚框作为查询会带来几个优点，包括通过温度调整获得更好的位置先验、考虑不同尺度对象的大小调制注意力，以及用于逐步改进锚点估计的迭代锚点更新。这样的设计清楚地表明，DETR 中的查询可以作为以级联方式逐层执行软 ROI 池化来实现。我们进行了大量的实验，有效地验证了我们的分析，验证了我们的算法设计。

彭祥.

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
DAB-DETR论文学习记录

在本文中，1.我们提出了一种使用动态锚框进行DETR（DEtection TRansformer）的新颖查询公式，并提供了对查询在DETR中的作用的更深入理解。这个新公式直接使用框坐标作为转换器解码器中的查询，2.并逐层动态更新它们。使用框坐标不仅有助于使用显式位置先验来提高查询特征相似性并消除 DETR 中缓慢的训练收敛问题，3.而且还允许我们使用框宽度和高度信息来调节位置注意力图。这样的设计清楚地表明，DETR 中的查询可以作为以级联方式逐层执行软 ROI 池化来实现。
复制链接

扫一扫