LW-DETR论文解读

柊泓迅

已于 2024-07-31 15:12:35 修改

阅读量727

点赞数 6

分类专栏：目标检测深度学习 python 文章标签：目标检测人工智能深度学习

于 2024-07-31 15:10:15 首次发布

柊泓迅

本文链接：https://blog.csdn.net/qq_45659339/article/details/140823479

版权

7 篇文章 0 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

论文题目： LW-DETR: A Transformer Replacement to YOLO for Real-Time Detection
论文链接：https://arxiv.org/pdf/2406.03459
代码链接：https://github.com/Atten4Vis/LW-DETR

LW-DETR 架构

LW-DETR是在DETR的基础上提出一种轻量级检测 Transformer，它在实时目标检测方面优于 YOLO。主要由三部分组成：ViT编码器，投影器，和DETR解码器。

ViT编码器：这是处理图像的第一部分，它将图像划分成小块（称为patches），然后对这些小块进行分析，提取特征。
a. 这个过程包括全局自注意力操作，这种操作虽然能够很好地捕捉图像特征，但计算量很大。全局自注意力的计算成本很高，其时间复杂度与 Token 的数量成二次方
b. 为了降低这部分的计算复杂度，作者引入了窗口自注意力，即只在图像的局部窗口内进行注意力操作。
DETR解码器：每层由一个自注意力、一个交叉注意力和一个 FFN 组成。解码器的任务是根据编码器提供的特征来识别图像中的具体对象，并确定它们的位置。
a. 作者使用了一种特殊的注意力机制（可变形交叉注意力），这可以更高效地计算，从而加快处理速度。一般DETR模型会用6层解码器，但作者简化为3层，以进一步减少处理时间。
投影器：投影器是连接编码器和解码器的桥梁，它处理由编码器生成的特征图，为解码器提供必要的输入信息。投影仪是一个在 YOLOv8中实现的 C2f 块。

在Transformer 编码器的基础上加上 多级特征图聚合、交错窗口和全局自注意力机制。为了清楚起见，未描绘 FFN 和 LayerNorm 层

这种设计的目的是在保持模型性能的同时减少计算负担。

动态焦点调整：根据目标的形状和位置动态调整注意力焦点。

作者对于不同型号的模型版本提供了不同的投影器。还为大型和超大型的模型版本设计了特别的投影器，以处理不同精度（尺寸）的特征图。

图(a)：适用于微型、小型和中型模型的单尺度投影器。在这种设置中，编码器输出的特征图通过一个投影器处理，然后输入到变压器解码器中。
图(b)：适用于大型和超大型模型的多尺度投影器。这里，输入的特征图先经过不同尺度的处理（例如，通过上采样或下采样），然后这些不同尺度的特征图分别通过各自的投影器处理后，共同输入到变压器解码器中。