摘要
近年来,基于 Transformer 的端到端检测器(DETR)取得了显著进展,但其高昂的计算成本仍然限制了 DETR 系列作为实时目标检测器的性能。为了解决这个问题,我们引入了 Van-DETR 模型,该模型增强了第一个实时端到端目标检测器 RT-DETR。具体而言,我们创新性地引入了一个全新的、更轻量级的主干网络 VanillaNet,取代了之前的主干网络 ResNet。针对其非线性弱和局部分析能力差的问题,我们将大核卷积与小核卷积相结合,整合全局和局部信息,显著提升了特征提取能力。其次,在混合编码器中,我们对主干网络提取的特征进行级联组处理,并设计了一个具有星型连接的门控线性单元用于尺度内特征交互。在跨尺度特征融合阶段,我们提出了一种具有强特征表示能力的高低频特征融合模块。为了验证模型的有效性,我们在两个公开的物体检测数据集(visdrone 数据集和 roboflow 的人员数据集)上进行了实验。实验结果表明,提出的 Van-DETR 模型在两个物体检测数据集上分别实现了 0.471 和 0.730 的 MAP50,比原始 RT-DETR 模型分别提高了 4.5% 和 2.8%。源代码位于 https://github.com/vangoghzz/Van-DETR。
关键词 实时目标检测 · Transformer · 特征融合 · 自注意力机制
1.介绍
物体检测是一项基本的视觉任务,涉及识别和定位图像中的物体。 现代物体检测器通常采用两种架构之一:基于 CNN 或基于 Transformer。过去几年,人们对基于 CNN 的物体检测器进行了广泛的研究。这些检测器的架构已经从最初的两阶段模型 [1–3] 发展到单阶段模型 [4–14],包括两种范式——基于锚点和无锚点。在检测速度和准确性方面取得了重大进展。自推出以来,基于 Transformer 的物体检测器 (DETRS) [15–25] 因消除了非最大抑制 (NMS) 等各种手工制作的组件而受到学术界的广泛关注。该架构大大简化了物体检测流程,实现了端到端物体检测。
实时目标检测是一个重要的研究领域,具有广泛的应用,例如目标跟踪 [26, 27]、视频监控 [28] 和自动驾驶 [29, 30]。 现有的实时检测器通常采用基于 CNN 的架构,在检测速度和准确率之间取得合理的平衡。然而,这些实时检测器通常需要 NMS 进行后处理,这很难优化并且缺乏鲁棒性,导致检测器推理速度延迟。最近,基于 Transformer 的检测器由于在加速训练收敛和降低优化难度方面的努力而取得了显着的性能。然而,DETR 的高计算成本尚未得到有效解决,限制了它们的实际应用并阻碍了其优势的充分利用。 这意味着尽管简化了目标检测过程,但由于模型本身的高计算成本,实现实时目标检测仍然具有挑战性。
2023 年,Wenyu Lv 等人提出了实时物体检测器 RT-DETR [31],这是一种实时端到端物体检测器。值得注意的是,他们设计了一种高效的混合编码器,通过解耦尺度内交互和跨尺度融合来有效处理多尺度特征,从而缓解了引入多尺度特征导致的输入编码器序列过长的问题。RT-DETR 在速度和准确率方面均优于最先进的同等规模的 YOLO 检测器。然而,作为第一个实时端到端物体检测器,RT-DETR 仍然采用传统的 ResNet[32] 主干,其快捷操作在合并不同层的特征时会消耗大量的片外内存带宽。此外,RT-DETR 在混合编码器中使用自注意力机制 [33] 进行尺度内特征交互。虽然自注意力机制的全局信息聚合方法具有显著的特征提取潜力,但由于其二次计算复杂度和高内存消耗而面临挑战。
为了应对这些挑战,Hanting Chen 等人 [34] 于 2023 年提出了一种极简的神经网络架构 VanillaNet。通过避免深层、快捷方式和自注意力等复杂操作,VanillaNet 成为资源受限环境的理想选择。同时,Xinyu Liu 等人 [35, 36] 提出了一种称为级联组注意力的新注意机制,以解决视觉变换器中注意力的计算效率和多样性问题。通过为每个注意力头级联不同的输入数据,他们减少了计算冗余并增加了注意力图的多样性。2023 年,Linfeng Tang 等人 [37] 提出了一种基于渐进语义注入和场景保真度约束的实用红外和可见光图像多模态融合网络,研究了图像级融合的潜力。2024 年,Dai Shi 等人 [38] 研究了基于窗口的特征分割方法,发现它们不能形成足够的信息混合。他们提出将查询嵌入和位置注意机制集成到像素分组注意中,开发一种称为门控线性单元(GLU)的新型混合通道混合器,它更适合图像任务,并结合基于局部特征的通道注意来增强模型鲁棒性。
受这些方法的启发,本文提出了一种以 VanillaNet 为骨干、基于 RT-DETR 的 DETR 模型(基于 VanillaNet 的 DETR,Van-DETR)。本文的主要贡献概括如下:
DETR首次引入VanillaNet作为backbone,提升了模型的轻量化。 并通过多种实验验证了其在DETR模型中的鲁棒性。另外,针对VanillaNet非线性弱导致的局部分析能力差的问题,我们将大核卷积与小核卷积相结合,融合全局和局部信息,显著提升特征提取能力。 2. 在尺度内特征交互阶段,对backbone提取的特征进行级联分组处理,并设计具有星型连接的Gated Linear Unit,提升模型的训练效率,能够更好地捕捉和表示复杂特征。 3. 最后,在跨尺度特征融合阶段,引入高分辨率与低分辨率特征的双向融合机制,使特征间的信息传递更加全面,进一步提升跨尺度特征融合效果。 4. 基于RT-DETR设计了一种新的实时Transformer模型,在效率和准确率之间取得了良好的平衡,模型在各类对比实验中展现出了优异的检测能力。
本文的其余部分安排如下:第 2 部分回顾了实时目标检测器、DETR 及其变体以及目标检测中的多尺度特征融合方法的发展。第 3 部分详细介绍了我们提出的目标检测算法,包括 Van-DETR 模型及其模块的细节。第 4 部分展示并分析了实验结果,以验证我们模型的有效性。最后,在第 5 部分总结并讨论了研究成果。
2.相关工作
2.1实施目标检测
实时目标检测是指低延迟地对目标进行分类与定位,在自动驾驶、视频监控等领域具有重要意义。近年来,YOLO 系列[39, 40]已成为实时目标检测器的代名词。YOLOv1、YOLOv2 和 YOLOv3[41] 建立了基本的检测架构,包括骨干、颈部和头部。YOLOv4 和 YOLOv5 引入 CSPNet 取代 DarkNet,并采用了 SPP 模块、SPPF 模块和数据增强策略。YOLOv6 引入 RepVGG 结构,利用基于锚点的训练和自蒸馏增强。YOLOv7 引入 E-ELAN 网络结构,在不破坏原有梯度路径的情况下提升了网络的学习能力。YOLOv8 将 YOLOv5 的 C3 结构替换为 C2f 结构,具有更丰富的梯度流,可以更有效地提取特征。 YOLOv9[42]提出了可编程梯度信息(PGI)来减少传输过程中的数据丢失。 YOLOv10[43]引入了一致的双重分配策略,将端到端训练引入了YOLO系列。
另一类基于Transformer的目标检测由于计算成本高昂,在实现实时检测方面面临重大挑战。RT-DETR作为第一个基于Transformer的端到端实时目标检测器,提出了一种高效的混合编码器,通过解耦尺度内特征交互和跨尺度特征融合,有效地处理多尺度特征,缓解了引入多尺度特征导致的输入编码器序列过长的问题。本文以RTDETR为基础,进一步研究基于Transformer架构的实时目标检测器。
2.2 DETR 及其变体
检测变换器 (DETR) 是一种端到端检测方法,不需要许多手工制作的组件,例如锚框生成 [18] 和 NMS [44]。 相反,它采用二分匹配以一对一的方式直接预测一组对象。 这种策略简化了检测流程并缓解了 NMS 造成的性能瓶颈。 然而,