卷积结构的反击，纯卷积Query-Based检测器DECO超越DETR-CSDN博客

本文链接：https://blog.csdn.net/Kenji_Shinji/article/details/136946488

本文介绍了一种新的目标检测框架DECO，它采用纯卷积结构替代Transformer，能在COCO数据集上达到38.6%AP和35FPS的速度，且在多尺度特征融合方面有所改进。DECO在精度和速度上优于原始DETR，并展示了与其它检测器的性能对比。

摘要由CSDN通过智能技术生成

论文见：

https://arxiv.org/abs/2312.13735

昇思MindSpore代码：

https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/DECO

引言

Detection Transformer（DETR）推出之后，迅速引发了目标检测领域的一股热潮，很多的后续工作也从精度和速度方面对原始的DETR进行了改进。然而，Transformer是否真的大一统视觉领域呢？至少从ConvNeXt和RepLKNet等工作表明，CNN结构在视觉领域还是有很大的潜力的。我们这个工作探究的就是如何利用纯卷积的架构，来得到一个性能能打的类DETR框架的检测器。

致敬DETR，我们称我们的方法为DECO (Detection ConvNets)。采用DETR类似的结构设定，搭配不同的Backbone，DECO在COCO上取得了38.6%和40.8%的AP，在V100上取得了35 FPS和28 FPS的速度，取得比DETR更好的性能。搭配类似RT-DETR的多尺度特征等模块，DECO取得了47.8% AP和34 FPS的速度，总体性能跟很多DETR改进方法比都有不错的优势。

DECO整体框架

DETR的主要特点是利用Transformer Encoder-Decoder的结构，对一张输入图像，利用一组Query跟图像特征进行交互，可以直接输出指定数量的检测框，从而可以摆脱对NMS等后处理操作的依赖。我们提出的DECO总体架构上跟DETR类似，也包括了Backbone来进行图像特征提取，一个Encoder-Decoder的结构跟Query进行交互，最后输出特定数量的检测结果。唯一的不同在于，DECO的Encoder和Decoder是纯卷积的结构，因此DECO是一个由纯卷积构成的Query-Based端对端检测器。

图：DECO和DETR框架的对比 DECO Encoder结构

Encoder的结构替换相对比较直接，我们选择使用4个ConvNeXt Block来构成Encoder结构。具体来说，Encoder的每一层都是通过叠加一个7x7的深度卷积、一个LayerNorm层、一个1x1的卷积、一个GELU激活函数以及另一个1x1卷积来实现的。此外，在DETR中，因为Transformer架构对输入具有排列不变性，所以每层编码器的输入都需要添加位置编码，但是对于卷积组成的Encoder来说，则无需添加任何位置编码。

DECO Decoder结构

相比而言，Decoder的替换则复杂得多。Decoder的主要作用为对图像特征和Query进行充分的交互，使得Query可以充分感知到图像特征信息，从而对图像中的目标进行坐标和类别的预测。Decoder主要包括两个输入：Encoder的特征输出和一组可学的查询向量（Query）。我们把Decoder的主要结构分为两个模块：自交互模块（Self-Interaction Module, SIM）和交叉交互模块（Cross-Interaction Module, CIM）。

图：DECO的Decoder结构

SIM模块主要融合Query和上层Decoder层的输出，这部分的结构，可以利用若干个卷积层来组成，使用9x9 depthwise卷积和1x1卷积分别在空间维度和通道维度进行信息交互，充分获取所需的目标信息以送到后面的CIM模块进行进一步的目标检测特征提取。Query为一组随机初始化的向量，该数量决定了检测器最终输出的检测框数量，其具体的值可以随实际需要进行调节。对DECO来说，因为所有的结构都是由卷积构成的，因此我们把Query变成二维，比如100个Query，则可以变成10x10的维度。

CIM模块的主要作用是让图像特征和Query进行充分的交互，使得Query可以充分感知到图像特征信息，从而对图像中的目标进行坐标和类别的预测。对于Transformer结构来说，利用Cross Attention机制可以很方便实现这一目的，但对于卷积结构来说，如何让两个特征进行充分交互，则是一个最大的难点。

要把大小不同的SIM输出和Encoder输出全局特征进行融合，必须先把两者进行空间对齐然后进行融合，首先我们对SIM的输出进行最近邻上采样：