LW-DETR论文解读

论文题目: LW-DETR: A Transformer Replacement to YOLO for Real-Time Detection
论文链接:https://arxiv.org/pdf/2406.03459
代码链接:https://github.com/Atten4Vis/LW-DETR

LW-DETR 架构

LW-DETR是在DETR的基础上提出一种轻量级检测 Transformer,它在实时目标检测方面优于 YOLO。主要由三部分组成:ViT编码器,投影器,和DETR解码器。

  1. ViT编码器:这是处理图像的第一部分,它将图像划分成小块(称为patches),然后对这些小块进行分析,提取特征。
    a. 这个过程包括全局自注意力操作,这种操作虽然能够很好地捕捉图像特征,但计算量很大。全局自注意力的计算成本很高,其时间复杂度与 Token 的数量成二次方
    b. 为了降低这部分的计算复杂度,作者引入了窗口自注意力,即只在图像的局部窗口内进行注意力操作。

  2. DETR解码器:每层由一个自注意力、一个交叉注意力和一个 FFN 组成。解码器的任务是根据编码器提供的特征来识别图像中的具体对象,并确定它们的位置。
    a. 作者使用了一种特殊的注意力机制(可变形交叉注意力),这可以更高效地计算,从而加快处理速度。一般DETR模型会用6层解码器,但作者简化为3层,以进一步减少处理时间。

  3. 投影器:投影器是连接编码器和解码器的桥梁,它处理由编码器生成的特征图,为解码器提供必要的输入信息。投影仪是一个在 YOLOv8中实现的 C2f 块。

主要工作

1、编码器改进

image.png
在Transformer 编码器的基础上加上 多级特征图聚合、交错窗口和全局自注意力机制。 为了清楚起见,未描绘 FFN 和 LayerNorm 层

  • 窗口注意力:仅在输入特征图的特定区域内计算注意力,有助于降低计算复杂度。
  • 全局注意力:覆盖整个特征图,捕捉远程依赖关系。
  • 多级特征图聚合:在编码器中聚合 多级特征图、中间特征图和最终特征图,形成更强的编码特征图

这种设计的目的是在保持模型性能的同时减少计算负担。

2、解码器改进

动态焦点调整:根据目标的形状和位置动态调整注意力焦点。

  • 之所以用动态焦点调整,是因为不同的对象和场景要求模型在不同区域集中资源和计算力,以提高效率和准确性。
  • 例如,在处理运动中的对象时,动态调整可以帮助模型跟踪目标并减少背景干扰。

3、单尺度投影器和多尺度投影器

作者对于不同型号的模型版本提供了不同的投影器。还为大型和超大型的模型版本设计了特别的投影器,以处理不同精度(尺寸)的特征图。
image.png

  • 图(a):适用于微型、小型和中型模型的单尺度投影器。在这种设置中,编码器输出的特征图通过一个投影器处理,然后输入到变压器解码器中。
  • 图(b):适用于大型和超大型模型的多尺度投影器。这里,输入的特征图先经过不同尺度的处理(例如,通过上采样或下采样),然后这些不同尺度的特征图分别通过各自的投影器处理后,共同输入到变压器解码器中。

参考

LW-DETR:实时目标检测的Transformer, Apache-2.0 开源可商用,论文实验超 YOLOv8-CSDN博客

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值