【论文阅读】 AdaMixer：A Fast-Converging Query-Based Object Detector

最新推荐文章于 2025-05-14 15:52:45 发布

初晴&

最新推荐文章于 2025-05-14 15:52:45 发布

阅读量473

点赞数 5

文章标签：论文阅读

本文链接：https://blog.csdn.net/qq_43106729/article/details/134116297

版权

AdaMixer: A Fast-Converging Query-Based Object Detector

一个快速收敛的基于query的目标检测器
后续

一个快速收敛的基于query的目标检测器

论文地址：arxiv.org/abs/2203.16507
代码地址：https://github.com/MCG-NJU/AdaMixer
论文发表：CVPR2022

摘要

总体阐述：
首先介绍现有的目标检测器的问题，密集预测和基于query目标检测收敛慢、性能低的问题，
接着指出本文的核心，AdaMixer，最后展示本文方法达到的效果。

传统的目标检测器采用密集预测范式，在图片中的位置和尺度进行扫描。最近基于query的目标检测，通过可学习的query集解码图像特征，打破了采用密集预测的传统。然而基于query的的范式存在：收敛慢、性能较低、在骨干网络和解码器之间设计额外的网络，设计复杂。

本文提出AdaMixer，快速收敛的基于query的目标检测器，两个步骤提升decoder的自适应能力。首先：每一个query基于估计的偏移量，自适应的在空间和尺度层面采样特征，使得AdaMixer可以更有效的关注目标相关的区域。然后：在query 的指导下，使用自适应MLP-Mixer，自适应的解码采样之后的特征。

AdaMixer拥有着简单的结构，没有密集注意力的encoder或者特征金字塔结构。结果：具体看实验部分，不做阐述。总之是有提升。

后续关注两点：如何采样特征，解码器如何自适应

1.引言

第一段：介绍密集范式。目标检测很长一段时间，都是采用在网格上的空间密集预测，滑动窗口、基于anchor框和anchor点的检测器。密集范式在目标检测领域处于主导地位，但是存在缺点，anchor的设计、训练样本的选择，后处理等，冗余操作。

密集范式就是：例如anchor一样，需要在网格的基础上，每一个位置均生成一系列的anchor框，然后基于这些anchor进行预测

第二段：指出最近新提出的基于query的检测器，利用attention，直接将query表示为潜在的目标，这类检测器，要求网络有很强的表达能力，可以将有限的query转换为潜在的目标。query 解码器受限于如何进行采样和如何解码。目前的一些基于query的解码器动态的采样特征，但是在解码时却是静态的。现在的目标检测器为解决受限的query代表能力和目标变换之间的问题，改动主要是，加入编码器和在解码器之前加入特征金字塔等，这样的改进在设计和计算方面都很复杂。

当前的query类目标检测器局限和其他作者的改进在哪些角度，存在什么问题。

第三段：本文方法介绍，可以解决上述提到的问题。改进的二个点：自适应3D特征采样，自适应混合通道语义和空间结构。方法的细节于第三章节进行介绍。

第四段：实验的一些结果展示，具体看实验章节。

2.相关工作

第一段：密集目标检测。区域建议网络，anchor框，anchor点。在特征图上使用密集先验，预测前景目标或者直接分类目标。

第二段：基于query的目标检测，DETR的介绍，缺点（小目标的问题，慢收敛）。DeFormable DETR，多尺度的可变形注意力，考虑多尺度特征图，以及Key稀疏。SMCA,Conditional DETR,Anchor DETR等，以往的一些比较出彩的工作主要做了什么。

具体看对应的文章，都是DETR目标检测器的改进。

第三段：本文基于一个新的角度考虑query 的检测器：跨图像解码查询的适应性。具体来说，关注的是如何从语义和空间两个方面使查询的解码方案更适应图像的内容。提出了自适应3D特征采样和自适应内容解码，以提高其灵活性，将查询与每个图像联系起来。AdaMixer 成为了一个能够快速收敛的基于查询的目标检测器，而无需引入额外的特征编码器或显式的金字塔网络。

3.方法

3.1基于query 的检测器的回顾

第一段：普通的解码器
第二段：可变形多尺度的解码器
第三段：RoIAlign和动态交互头

该部分具体看相应的论文，具体不做解释。重点关注Sparse R-CNN ，和可变形DETR

表1，在解码器，如何判断有无适应性？什么叫位置方面有适应性？内容方面有适应性？这个问题先放一放，可以看看本文是如何实现自适应，进而推断这里的解释为何意思。

关于解码器的自适应的评判

3.2目标query的定义

目标query也分为内容向量q和位置向量(x,y,z,r)，z,r分别代表什么意思。
x,y是中心点的坐标，z是尺度的对数，r是长宽比的对数。位置向量，也就是query的位置部分，是采用四维的方式，与之前的DAB-DETR类似，只是这里采用的是x,y,w,r。最终根据网络训练得到的位置向量，然后解码目标的位置。
在这里插入图片描述
s_base是指基础的下采样步幅偏移。本文设置为4。根据上述式子可以得到 z 和 r 分别是：

在这里插入图片描述

具体为什么这么设置，还需要进一步研究。

3.3自适应位置采样
在这里插入图片描述
3D空间的多尺度特征

首先将骨干网络提取的特征图，映射到相同的通道数d_feat。
然后计算z轴坐标：
在这里插入图片描述

举例分析：其中每一个尺度所在的z轴，需要根据公式3进行计算。s_j^feat 就是第j层特征图的下采样倍数。依次计算出C₂,C₃,C₄,C₅的z轴坐标，也就是0，1，2，3.

此外还涉及一个通道问题，对于构建的3维坐标，通道数如何体现。可以看做有d_feat个这样的3D空间

在这里插入图片描述

自适应3D采样过程

经过上述过程，将多尺度特征构建成3维特征，然后进行自适应采样。采样过程，首先根据内容向量q 线性映射得到偏移量。产生P_in（文章设置为32）个偏移量。论文公式4所示。
在这里插入图片描述
得到采样的偏移量，进行相应的偏移，公式如下：

根据此公式，得到偏移之后的采样位置，下面根据对应的采样位置，获取相应的值。
首先在x,y 方向双线性插值，得到x ，y空间的值，然后采样z的值，这里采取的方式是，高斯权重插值。将每个特征图的高斯权重与z值相乘然后加和。对于第 j 个特征图的权重值为：

在这里插入图片描述
举例分析如下：

其中T_z 的值为2。根据高斯函数的图像性质，距离中间峰值点越远，对应的高斯函数值越低，因此，对于偏移之后的z 值，分别计算与3D多尺度特征图的高斯权重，与某一层特征图的z_j^feat值之间的距离越远，对应的权重就越低。

分组采样

类似于多头注意力，将3D多尺度特征图的通道数分成g 个组，每一个组的通道数是d_feat /g 。对每一个分组都进行单独的3D采样。也就是解码器对于一个 query 可以获得 g*P_in个输出的偏移量向量，使得采样点更加丰富，最终采样之后的矩阵形状为：g ,P_in,d_feat/g 。

3D特征采样的草图：
得到采样位置，只展示一个query。N个query一样的方法。最终得到P_in个采样的位置。通道方面，可以看作一共有d_feat个图上所示的3D空间。

在这里插入图片描述
得到采样位置，然后进行采样。最终得到P_in * 256 个采样点。

分组采样：也就是在偏移量预测的时候，生成g 组P_in个采样位置。
在这里插入图片描述

然后分组进行采样，可以将3D特征图，看作一共有d_feat/g（通道数/分组）个这样的3维特征空间。然后分别根据其采样的位置，确定采样值。根据图示，即可得到最终的分组之后的采样点。

在这里插入图片描述

后续

自适应解码器部分在下一篇文章解释。