【算法论文|目标检测1】RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer

摘要

  在本报告中,我们介绍了 RT-DETRv2,一种改进的RT-DETR。RT-DETRv2 建立在之前最先进的实时检测器 RT-DETR 的基础上,并打开了一组免费赠品袋,以实现灵活性和实用性,并优化训练策略以实现增强的性能。为了提高灵活性,我们建议在可变形关注中为不同尺度的特征设置不同数量的采样点,以实现解码器选择性的多尺度特征提取。为了提高实用性,我们提出了一个可选的离散采样算子来取代 YOLO 特定于 RT-DETR 的 grid_sample 算子。这将删除通常与 DETR 关联的部署约束。对于训练策略,我们提出了动态数据增强和缩放自适应超参数定制,以在不损失速度的情况下提高性能。源代码和预训练模型将在 https://github.com/lyuwenyu/RT-DETR 上提供。

1 引言

  对象检测是一项基本的视觉任务,涉及识别和定位图像中的对象。其中,实时目标检测是一个重要的领域,具有广泛的应用范围,例如自动驾驶(Atakishiyev et al. [2024])。随着过去几年的发展,YOLO 探测器(Redmon 和 Farhadi [2017, 2018],Bochkovskiy 等人 [2020],Glenn.[2022],Xu 等人 [2022],Li 等人 [2023],Wang 等人 [2023],Glenn.[2023],Wang et al. [2024a,b])无疑是该领域最负盛名的框架。原因是 YOLO 检测器实现了合理的平衡。RT-DETR 的出现 (Zhao et al. [2024])为实时目标检测开辟了一条新的技术途径,打破了该领域对 YOLO 的依赖。RT-DETR 提出了一种高效的混合编码器来取代 DETR 中的普通 Transformer 编码器(Carion et al. [2020]),它通过解耦多尺度特征的尺度内交互和跨尺度融合,显著提高了推理速度。为了进一步提高性能,RT-DETR 提出了 uncertainty-minimal 查询
 selection,它通过显式优化不确定性为解码器提供高质量的初始查询。此外,RT-DETR 提供了广泛的探测器尺寸,并支持灵活的速度调整,以适应各种实时场景,而无需重新训练。RT-DETR 代表了一种新颖的端到端实时检测器,标志着 DETR 系列的重大进步。

  在本报告中,我们介绍了 RT-DETRv2,一种改进的实时检测 Transformer。这项工作建立在最近的 RT-DETR 之上,并在 DETR 系列中开辟了一套关于灵活性和实用性的免费赠品,以及优化训练策略以实现增强的性能。具体来说,RT-DETRv2 建议在可变形注意力模块内为不同尺度的特征设置不同数量的采样点,以实现解码器的选择性多尺度特征提取。在增强实用性方面,RT-DETRv2 提供了一个可选的离散采样算子来取代原来的 grid_sample 算子,这是特定于 DETR 的,从而消除了通常与检测 Transformer 相关的部署限制。此外,RT-DETRv2 优化了训练策略,包括动态数据增强和尺度自适应超参数定制,目的是在不损失速度的情况下提高性能。结果表明,RT-DETRv2 为 RT-DETR 提供了改进的基线和免费赠品袋,增加了灵活性和实用性,并且所提出的训练策略优化了性能和训练成本

2 方法

  RT-DETRv2 的框架与 RT-DETR 相同,只是对解码器的可变形注意力模块进行了修改。

2.1 框架

  不同比例的采样点数量不同。当前的 DETR 利用可变形的注意力模型 (Zhu et al. [2020])来减轻由多尺度特征组成的长序列输入引起的高计算开销。RT-DETR 解码器保留了此模块,该模块在每个尺度上定义相同数量的采样点。我们认为,这种约束忽略了不同尺度下特征的内在差异,限制了可变形注意力模块的特征提取能力。因此,我们建议为不同的尺度设置不同数量的采样点,以实现更灵活、更高效的特征提取。

  离散采样。提高 RT-DETR 的实用性并使其无处不在。我们专注于比较 YOLO 和 RT-DETR 的部署要求,其中特定于 RT-DETR 的 grid_sample 运算符限制了其广泛的适用性。因此,我们提出了一个可选的 discrete_sample 运算符来代替 grid_sample,从而消除了 RT-DETR 的部署约束。具体来说,我们对预测的采样偏移量执行舍入操作,省略了耗时的双线性插值。但是,舍入操作是不可微分的,因此我们关闭了用于预测采样偏移量的参数的梯度。在实践中,我们首先使用 grid_sample 运算符进行训练,然后用 discrete_sample 运算符代替它进行 f ine-tuning。对于推理和部署,该模型使用 discrete_sample 运算符。

2.2 训练计划

  动态数据增强。为了使模型具有鲁棒的检测性能,我们提出了动态数据增强策略。考虑到检测器在训练初期的泛化性差,我们应用了更强的数据增强,而在后期训练阶段,我们降低了它的水平,以适应检测器对目标域的检测。具体来说,我们在早期保持了 RT-DETR 数据增强,同时在最后两个 epoch 中关闭了 RandomPhotometricDistort、RandomZoomOut、RandomIoUCrop 和 MultiScaleInput。

  缩放自适应超参数自定义。我们还观察到,不同大小的缩放 RT-DETR 是使用相同的优化器超参数训练的,导致它们的性能欠佳。因此,我们建议对缩放的 RT-DETR 进行缩放自适应超参数定制。考虑到光检测器的预训练主干(例如 ResNet18 (He et al. [2016]) 的特征质量较低,我们提高了它的学习率。相反,具有大型检测器的预训练骨干网(例如,ResNet101 (He et al. [2016]))具有更高的特征质量,我们降低了它的学习率。

3 实验

3.1 实现细节

  与 RT-DETR 一样,我们使用在 ImageNet 上预训练的 ResNet (He et al. [2016])作为主干,并使用 AdamW (Loshchilov and Hutter [2018])优化器训练 RT-DETRv2,批量大小为 16,并应用 ema_decay = 0.9999 的指数移动平均线 (EMA)。对于可选的离散采样,我们首先使用 grid_sample 运算符预训练 6×然后使用 discrete_sampleoperator 微调 1×。对于尺度自适应超参数定制,超参数如表 1 所示,其中 lr 表示学习率。

3.2 评估

  RT-DETRv2 在 COCO (Lin et al. [2014]) train2017 上进行了训练,并在 COCO val2017 数据集上进行了验证。我们报告了标准 AP 指标(在均匀采样的 IoU 阈值上取平均值,范围为 0.50 − 0.95,步长为 0.05)和真实场景中常用的 APval 50。

3.3 结果

  与 RT-DETR(Zhaoetal.[2024])在表 2.RT-DETRv2 中优于 RT-DETR在不损失速度的情况下实现不同尺度的检测器

3.4 消融实验

  采样点的消融。我们对 grid_sampleoperator 的采样点总数进行消融研究。采样点的总数计算为 num_head×num_point×num_query× num_decoder,其中 num_point 表示每个格网中每个比例要素的采样点总和。结果表明,减少采样点的数量并不会导致性能显著下降,参见。表3.这意味着在大多数工业场景中,实际应用不太可能受到影响

  离散采样的消融。然后我们移除grid_sample并用 discrete_sample 替换它进行消融。结果表明,该操作在 APval 50 中没有造成明显的减少,但确实消除了 DETRs 的部署约束,参见。表 4.

4 结论

  在这份报告中,我们提出了RT-DETRv2,一种改进的实时检测Transformer。RT-DETRv2 开启了一系列免费赠品,增加了 RT-DETR 的灵活性和实用性,优化了训练策略,在不损失速度的情况下实现性能增强。我们希望这份报告能为 DETR家族提供见解,并拓宽 RT-DETR 的应用范围。

### 回答1: tph-yolov5是一种基于Transformer预测头的改进版yolov5,用于在无人机捕捉场景中进行目标检测。它采用了Transformer网络结构,能够更好地处理长序列数据,提高了检测精度和速度。在无人机应用中,tph-yolov5可以更好地适应复杂的场景和光照条件,提高了无人机的自主飞行和目标跟踪能力。 ### 回答2: tph-yolov5是一种改进版的yolov5目标检测算法,主要应用于无人机场景下的目标检测。与传统的yolov5相比,tph-yolov5采用了transformer prediction head技术来进一步提高检测的准确率和效率。 无人机场景下的目标检测任务比较特殊,因为无人机拍摄的图像往往具有良好的视角和高度,但是环境复杂多变且目标出现频率较低,因此传统的目标检测算法可能会遇到一些困难,例如漏检、错检等问题。而tph-yolov5算法transformer prediction head帮助下,能够更好地解决这些问题。 具体来说,tph-yolov5算法的优势在于如下三个方面: 1. Transformer Prediction Head技术 tph-yolov5采用transformer prediction head技术来生成目标检测的预测结果。相比传统的卷积神经网络,transformer prediction head能够更好地捕捉物体之间的关系,并且在计算量相同的情况下,能够获得更高的准确率。 2. 自适应感受野 在tph-yolov5算法中,网络会根据目标的大小和位置自适应地调整感受野的大小,这样可以更好地捕捉目标的细节,提高检测的准确率。 3. 融合多尺度特征 tph-yolov5算法融合了多尺度特征,这样可以更好地处理远距离目标和近距离目标的检测。在无人机场景下的目标检测任务中,这一点尤其重要,因为有些目标可能会比较小或者比较远。 总之,tph-yolov5是一种非常优秀的目标检测算法,它在无人机场景下的目标检测任务中表现很出色。由于采用了transformer prediction head技术等优秀的方法,它能够更准确地捕捉目标,同时也能够更快地处理大量的数据。由于无人机技术的快速发展,相信tph-yolov5算法将在未来得到更广泛的应用。 ### 回答3: tph-yolov5是一种改进的基于transformer预测头的yolov5,用于在无人机捕获的场景中进行物体检测。无人机拍摄的场景与传统的场景有很大不同,比如拍摄的视角更高,场景更广阔,物体更稀疏。这些因素导致传统的物体检测模型难以在无人机场景中准确地检测物体。因此,tph-yolov5的提出是为了解决这些问题。 tph-yolov5使用了transformer预测头来改进yolov5模型的表现。具体来说,transformer模型用于生成特征图中的位置嵌入,以在后续的特征映射中对不同位置的特定位置进行建模。这种方法可以更准确地定位每个目标的位置,特别是在稀疏目标场景中。此外,tph-yolov5还使用了引入MSELoss和IoULoss的CAP L1损失以增强模型的稳定性和准确性。 tph-yolov5的实验结果表明,在无人机拍摄的场景中,tph-yolov5相比于基准模型yolov5和其他物体检测模型,具有更高的准确性和稳定性。这些结果证明了transformer预测头的优越性以及CAP L1损失对模型表现的关键作用,这为无人机场景中物体检测的发展提供了新的思路和方法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值