【DETR】2、Deformable DETR | 使用多尺度可变形 attention 的方式来解决 DETR 收敛慢和小目标不好的问题

呆呆的猫

已于 2023-08-22 16:15:44 修改

阅读量4.5k

点赞数 9

分类专栏： DETR 系列算法文章标签： transformer 目标检测

于 2021-10-26 18:32:02 首次发布

本文链接：https://blog.csdn.net/jiaoyangwm/article/details/120972565

版权

DETR 系列算法专栏收录该内容

3 篇文章 3 订阅

订阅专栏

DeformableDETR是针对DETR的优化，解决了DETR收敛速度慢和小目标检测效果不佳的问题。通过引入可变形注意力模块，它降低了计算复杂度并加速了收敛，同时采用多尺度变形注意力来提升小目标检测性能。实验结果显示，DeformableDETR在保持端到端检测器优势的同时，显著提高了效率和准确性。

摘要由CSDN通过智能技术生成

在这里插入图片描述

文章目录

论文链接：Deformable DETR: Deformable Transformers for End-to-End Object Detection

代码链接：https://github.com/fundamentalvision/Deformable-DETR

出处：ICLR2021 Oral

一、背景和动机

DETR 的提出，改善了之前的方法需要大量手工设计操作的局面（如 anchor 和 NMS），并且首次建立了一个完整的端到端的检测器。

但 DETR 有两个明显的问题：收敛慢、对小目标效果不好

相比之前的方法，DETR 收敛的很慢，DETR 在 coco 数据集上需要约 500 个epoch 才能收敛，比 Faster RCNN 慢了 10 到 20 倍，作者认为主要有两个原因：
- 在初始化 object queries 的时候，被初始化成相同的值（DETR 中全部初始化为 0），也就意味着这些 object queries 对特征图中的所有像素的注意力权重是相同的，所以需要大的 epoch 训练来找到需要关注的那几个稀疏的位置，
- 此外，注意力的计算复杂度是随着特征图大小而平方增大的，计算复杂度也很高，计算所需的时间会较长
DETR 在小目标上表现不好，现有的方法大多使用多尺度特征中的大分辨率特征来解决小目标问题，但如果使用大分辨率特征的话，DETR 的复杂度会很高。但这种缺点也是源于 Transformer 这种结构（当时还没有像 Swin 这种多尺度提取特征的 Transformer 网络）。

Deformable DETR 的出发点：

卷积神经网络中有一种卷积叫 “可变形卷积”，可以高效的抽取稀疏空间位置的信息，作者受此启发建立了 deformable DETR。

Deformable DETR 的贡献：

对收敛慢的问题：
- 提出了 deformable attention module 来代替 Transformer attention module 来处理 feature map，只选择 query 附近的几个点来参与计算，能降低复杂度
- deformable attention module 是会从 feature map 中选择一小部分特征点来进行特征的提取
对小目标问题：
- 引入了多尺度 deformable attention module

Deformable DETR 的优势：

缓解 DETR 收敛慢和计算复杂度高的问题

二、方法

在这里我们先看一看可变形卷积：

就是在基础卷积的基础上，给每个位置学习一个偏差，也就是每个位置都增加了一个偏移量，能够让网络聚焦于感兴趣的位置

可变形卷积这种形变不是发生在卷积核，而是发生在原图产生了 offset 偏移，在经过正常卷积就达到可变卷积的效果，也就是特征偏移+正常卷积。

在这里插入图片描述

1、Deformable Attention Module

在这里插入图片描述

一般来说，使用 Transformer attention 能够看到整个特征图中的所有特征（因为每个位置都会和其他所有位置求取注意力特征），这样计算量自然就会很大。

受启发与可变形卷积，deformable attention module 如图 2 所示，无论原始的特征图多大，deformable attention module 都只会关注 reference point （橘色小框）附近的少数位置。

所以对于每个 query，只会分配少数的 key，那么下面这两个问题就可以解决：

问题1）由于分辨率导致的计算量增大
问题 2）收敛慢

Deformable Attention Feature 如下：

在这里插入图片描述

输入特征图 $\in R^{C\times H \times W}$
$q$ 为 query ，其元素包括为常数 $z_q$ 和 2 维位置信息 $p_q$
$m$ 是 attention head 的索引， $k$ 是 sampled keys 的索引， $K$ 是 sample keys 的总数（ $K << H W$ ）
$\Delta p_{mqk}$ 和 $A _{mqk}$ 是第 m 个 attention head 的第 k 个 sampling point 的 sampling offset 和 attention weight

2、Multi-scale Deformable Attention Module：

在这里插入图片描述

$l$ 表示输入特征的 level 索引
$\Delta p_{mlqk}$ 和 $A _{mlqk}$ 是第 $l$ 个level 的特征图的 m 个 attention head 的第 k 个 sampling point 的 sampling offset 和 attention weight

3、Deformable Transformer Encoder:

作者使用上面提出的多尺度 attention 模块代替了 DETR 中的 attention 模块，encoder 的输入和输出是具有相同分辨率的多尺度特征图 ${x^l\}_{l=1}^{L-1}(L=4)$ 。encoder 中，作者从抽取了 Resnet 中从 $C_3$ 到 $C_5$ stage 的输出特征图，其中 $C_l$ 的分辨率比输入特征低 $2^l$ 。

encoder 的输出是和输入分辨率相同的特征，query 和 key 都是从这些多尺度特征图中抽取的，并且作者增加了一个 scale-level embedding $e_l$ 来区分 query pixel 所来自的尺度，且该 scale-level embedding ${e_l\}_{l=1}^{L}$ 是随机初始化并且参与训练的。