Strong Baseline: Multi-UAV Tracking via YOLOv12 with BoT-SORT-ReID强基线：基于YOLOv12与BoT-SORT-ReID的多无人机跟踪_widely applicable strong baseline for sports ball -CSDN博客

本文链接：https://blog.csdn.net/Together_CZ/article/details/147273123

这篇文章的核心内容是提出了一种基于热红外视频的多无人机（UAV）跟踪方法，该方法通过结合最新的 YOLOv12 检测器和 BoT-SORT 跟踪算法，建立了一个强大的基线模型，并在多个赛道上进行了实验验证。以下是文章的主要研究内容总结：

1. 研究背景与动机

多无人机跟踪的重要性：随着无人机技术的发展，无人机集群的检测与跟踪成为安全和监控领域的重要任务。热红外视频因其在低光照和恶劣天气条件下的优势，成为理想的跟踪手段。
挑战：热红外视频中的无人机跟踪面临低对比度、环境噪声和目标尺寸小等挑战。

2. 方法论

检测器选择：文章选择了最新的 YOLOv12 检测器，因其在准确性和效率上的优势。
跟踪算法：结合了 BoT-SORT 跟踪算法，该算法通过卡尔曼滤波器和相机运动补偿（CMC）来稳定跟踪。
ReID 模块：在多目标跟踪任务中，引入了 ReID（重识别）模块，以增强对无人机的外观特征建模。
训练与推理策略：采用两阶段训练策略，先在单目标跟踪数据集上预训练，再在多目标跟踪数据集上微调。推理过程中，针对不同任务调整输出策略，以适应不同的跟踪场景。

3. 实验设计与评估

数据集分析：详细分析了三个赛道的训练和测试数据，包括序列数量、分辨率、边界框分布等。
评估指标：对于单目标跟踪任务（赛道 1 和 2），使用自定义的精度指标；对于多目标跟踪任务（赛道 3），使用多目标跟踪精度（MOTA）。
实验结果：
- 在赛道 1 和 2 中，通过引入 BoT-SORT 显著提升了性能，最佳配置为 YOLOv12l 模型。
- 在赛道 3 中，通过调整模型大小、跟踪缓冲区大小、输入图像分辨率和 ReID 模块配置，进一步优化了性能，最终得分为 0.7609。

4. 关键结论

性能提升：与官方基线相比，该方法在所有赛道上均取得了显著的性能提升，尤其是在赛道 3 中，性能接近排行榜前三名。
影响因素分析：模型大小、跟踪缓冲区大小、输入图像分辨率和 ReID 模块对性能的影响分别约为 0.001、0.0001、0.1 和 0.01。
潜在改进方向：文章指出，通过图像增强技术（如边缘锐化、对比度增强和运动模式可视化）可以进一步提升跟踪性能。

文章通过结合最新的 YOLOv12 检测器和 BoT-SORT 跟踪算法，为热红外视频中的多无人机跟踪任务建立了一个强大的基线。通过详细的实验分析和参数调整，该方法在多个赛道上取得了具有竞争力的性能，并为未来的研究提供了有价值的参考和改进方向。这里是自己的论文阅读记录，感兴趣的话可以参考一下，如果需要阅读原文的话可以看这里，如下所示：

官方项目地址在这里，如下所示：

摘要

在热红外视频中检测和跟踪多架无人机（UAV）是一项极具挑战性的任务，原因在于对比度低、环境噪声大以及目标尺寸小。本文提出了一种针对热红外视频中多无人机跟踪的直接方法，利用了检测和跟踪领域的最新进展。与依赖于经典的 YOLOv5 与 DeepSORT 组合不同，我们提出了一个基于 YOLOv12 和 BoT-SORT 的跟踪框架，并通过定制的训练和推理策略加以增强。我们在第 4 届反无人机挑战赛的指标下评估了我们的方法，并取得了具有竞争力的性能。值得注意的是，我们在没有使用对比度增强或时间信息融合来丰富无人机特征的情况下，取得了强大的结果，突显了我们的方法作为多无人机跟踪任务的“强基线”。我们提供了实现细节、深入的实验分析以及潜在改进的讨论。

1. 引言

近年来，多无人机跟踪已成为一项关键应用，这得益于硬件、检测模型和跟踪算法的显著进步。随着配备复杂视觉系统和先进控制动态的无人机不断增多，基于无人机的产品也大量涌现。然而，这些创新也带来了新的挑战，尤其是在跟踪无人机集群方面。由于未经授权的无人机带来的安全威胁不断增加，有效跟踪无人机集群的需求变得日益紧迫。为了应对这些挑战并推动跟踪和检测任务的发展，人们开发了各种无人机相关的数据集。这些数据集包括轨迹重建数据集（如 [14, 21] 中的单视角或多视角相机捕获的无人机轨迹）以及在 [3] 中引入的基于轨迹的无人机数据集。此外，基于 RGB 视频的无人机数据集（如 [20, 30, 32, 34] 中的）也得到了广泛应用。其中，[13, 17] 中基于热红外视频的无人机数据集因其在单目标跟踪（SOT）和多目标跟踪（MOT）场景中的独特性而受到特别关注，尤其是在主要挑战赛事中。这些数据集在提高无人机跟踪和检测能力方面发挥了关键作用。热红外视频相较于传统的 RGB 图像具有优势，例如在低光照和恶劣天气条件下具有更好的可见性，使其成为安全和监控应用的理想选择。本文专注于利用热红外视频进行多无人机跟踪，利用其在 RGB 方法可能失效的挑战性环境中的重要性。图 1（a）展示了来自 MOT 训练集的具有多样化背景的热红外帧，而图 1（b）突出了微小缺陷，例如标注错误、冗余、遗漏标签和低质量帧，这些在数据集中占比微不足道，可以在训练时安全忽略。此外，图 2 展示了训练集中边界框标注的裁剪图像块，说明了无人机的尺寸变化，从几个像素到个位数像素不等。我们通过利用最新的 YOLOv12 [36] 检测器和 BoT-SORT [1] 跟踪算法构建了完整的无人机跟踪工作流程，其性能优于 YOLOv5 [18] 与 DeepSORT [40] 的组合。我们还实施了一些策略以进一步增强多无人机跟踪性能。我们的贡献如下：

我们基于 YOLOv12 和 BoT-SORT 建立了一个多无人机跟踪工作流程，为基于热红外视频的多无人机跟踪任务设定了强基线。
我们提供了对各种试验调整的深入分析，例如输入图像尺寸和跟踪器缓冲区调整的影响，并为从我们的强基线出发的未来改进提供了重要考虑因素。

2. 相关工作

现有的改进基于热红外视频的多无人机跟踪的视角可以分为标注和基准测试、空间信息增强、时间和运动建模、实时优化、统一框架以及基于检测的跟踪系统。由于高质量标注是稳健跟踪的基础，先前的研究已经考察了标注错误对目标检测的影响 [19]，引入了多假设跟踪（MHT）以利用时间线索并减少误检 [15]，并引入了基准测试以在无人机数据集上评估检测和跟踪方法 [16]。空间信息增强技术，例如在 [23] 中提出的图像金字塔引导（IPG）模块，通过保留细粒度的空间细节以实现准确的边界框回归和分类，即使在深层网络中也是如此。为了进一步提高跟踪的鲁棒性，时间和运动建模技术利用帧间相关性，增强连续性并减少碎片化 [11, 12, 22, 42]。与之互补的是，实时优化策略在保持准确性的同时减少推理延迟，使无人机跟踪能够在实际应用中高效运行 [7, 26, 39, 41]。除此之外，统一框架将检测和跟踪整合为端到端解决方案，简化了多无人机跟踪流程 [44, 46]。此外，基于检测的方法通过引入级联后处理模块来提高跟踪精度，通过减少误检和改进定位来实现 [35]。尽管先前的研究对多无人机跟踪领域做出了重要贡献，但我们的方法通过利用最新的检测器和跟踪器，为基于热红外视频的无人机跟踪设定了新的基准，并为多无人机跟踪任务的未来研究提供了指导。

3. 方法论

本节首先定义问题范围，然后进行数据的分析和准备以用于模型训练。随后，我们介绍主要的检测模型 YOLOv12 和跟踪算法 BoT-SORT，并详细说明我们的训练和推理策略。

3.1. 问题陈述

目标是尽可能准确地跟踪无人机，具体评估指标在第 4.1 节中详细说明。挑战包括三个赛道，每个赛道对应不同的场景。赛道 1 和 2 是单目标跟踪（SOT）任务，区别在于是否给出无人机的初始位置。赛道 3 是一个多目标跟踪（MOT）任务，其中提供了无人机的初始位置。

3.2. 数据分析和准备

我们首先分析每个赛道的训练和测试数据，如表 1 所总结。赛道 1 和 2 共享相同的训练集，包括 23 个 512×512 分辨率的序列和 200 个 640×512 分辨率的序列。赛道 3 的训练集由 200 个 640×512 分辨率的序列组成。对于测试，赛道 1 和 2 各包含 216 个不重叠的序列。赛道 1 的测试集完全为 640×512 分辨率，而赛道 2 包括 16 个 640×512 分辨率和 200 个 512×512 分辨率的序列。赛道 3 的测试集由 100 个 640×512 分辨率的序列组成。此外，表 1 报告了宽度、高度和面积的分布，以及它们的均值和标准差，为模型超参数调整提供了重要见解。需要注意的是，与官方发布相比，数字可能会有轻微差异，因为我们移除了冗余标注和缺陷案例，如图 1（b）所示。在分析数据后，我们将其拆分以用于模型训练准备。表 2 详细说明了用于 SOT 和 MOT 任务的训练、验证和测试的帧数和边界框数量。具体来说，赛道 1 和 2 使用 YOLOv12 与 BoT-SORT，而赛道 3 使用 YOLOv12 与 BoT-SORT-ReID。需要注意的是，表中有些数字是括号中的，因为我们发现 SOT 任务的测试集提供的信息有限。因此，括号中的值仅反映了仅拆分为训练和验证集的数据。此外，对于 BoT-SORT 训练，数据的 1/10 主要用于训练 ReID 模块。这种方法为 ReID 模块提供了更有效的训练，因为许多场景在视觉上是相似的。

3.3. YOLOv12 与 BoT-SORT-ReID 用于 MOT

基于在 [3] 中呈现的全面评估结果，该研究对 YOLO 系列检测器在包含 RGB 视频的无人机数据集上进行了基准测试，由于 YOLOv12 的卓越性能，我们选择了 YOLOv12 用于所有赛道。

YOLOv12 [36] 是 YOLO 系列目标检测器的最新进展，引入了关键创新，同时提高了准确性和效率。YOLOv12 的核心采用了残差高效层聚合网络（R-ELAN），解决了与注意力机制相关的优化挑战，特别是在大规模模型中。基于 ELAN [37]，R-ELAN 引入了具有自适应缩放的块级残差设计以及改进的特征聚合策略，共同促进了有效的特征重用和稳定的梯度传播，且开销极小。此外，YOLOv12 通过结合 FlashAttention [5, 6] 与空间感知模块，引入了以注意力为中心的架构，能够在保持低延迟的同时增强上下文建模。引入 7×7 大核可分离卷积扩展了感受野，并加强了对小中型目标的定位能力。该架构针对现代 GPU 内存层次结构进行了优化，提高了计算效率并减少了推理时间，同时不降低检测性能。这些创新使 YOLOv12 在实时应用、大规模检测任务和跟踪流程中实现了速度与准确性的平衡。BoT-SORT [1] 结合了卡尔曼滤波器 [40] 与相机运动补偿（CMC），以在动态条件下稳定跟踪。CMC 通过仿射变换进行全局运动补偿（GMC），使用图像关键点 [33] 通过金字塔 Lucas-Kanade 光流 [2] 进行跟踪，并进行异常值拒绝。通过 RANSAC [8] 估计的仿射变换补偿背景运动，同时通过调整卡尔曼滤波器状态向量来保持目标轨迹的稳定性。BoT-SORT-ReID 通过整合来自四种不同 ReID 架构的外观线索来增强多目标跟踪。Bag of Tricks（Bagtricks）基线采用 ResNet-50 作为骨干网络，并结合批量归一化、三元组损失和交叉熵损失进行稳健的特征提取。注意力广义均值池化与加权三元组损失（AGW）[43] 通过引入非局部模块和广义均值池化来改进特征表示。强基线（SBS）[25] 通过引入广义均值池化、圆形 softmax 损失和先进的数据增强策略来增强鲁棒性。多粒度网络（MGN）[38] 通过引入多个特征分支来捕获不同空间尺度上的细粒度表示，从而扩展了 SBS。此外，按照 ByteTrack [45] 的方式，采用 20 帧间隔的线性轨迹插值，以缓解由于遮挡或标注错误导致的漏检问题。

3.4. 训练和推理策略

为了减少 YOLOv12 检测器的训练时间，我们采用了两阶段训练策略。首先，我们从头开始在 SOT 数据集上训练 YOLOv12 模型（n, s, m, l, x），该数据集被拆分为训练、验证和测试子集，具体如表 2 所示。随后，从这个检查点开始，我们对这些模型在 MOT 数据集上或使用更大的输入图像分辨率进行微调。这种分阶段的方法加速了收敛，减少了整体训练时间，并使模型能够在仅经过几个训练周期后就达到具有竞争力的平均精度（AP）。对于 ReID 模块，我们主要使用数据集的一个减小的子集来提高训练效率，因为使用整个数据集进行训练将非常耗时。推理工作流程如图 3 所示。整个过程遵循原始 BoT-SORT 方案。然而，我们对输出进行了修改，在赛道 1 和 2 中报告在线和丢失的目标，同时保留赛道 3 的原始输出格式。我们没有使用线性轨迹插值，因为由于相机运动或快速移动的无人机，ID 切换频繁发生，使得插值对于恢复缺失检测无效。相反，对于 SOT 任务，我们采用了一种基于假设的策略，即每帧最多包含一个无人机，按照以下优先顺序：（1）报告在线目标中置信度最高的无人机；（2）如果没有可用的在线目标，则继续在后续跟踪器缓冲区帧中报告之前的 ID 作为丢失目标；（3）如果没有可用的先前 ID，则报告最后已知位置，直到检测到新的在线目标。这种策略利用卡尔曼滤波器的预测，根据先前的位置和速度准确估计无人机的位置，显著提高了 SOT 任务的评估指标。然而，这种策略对于 MOT 任务并不适用，因为在线和丢失目标之间频繁重叠和 ID 切换会导致结果不佳。因此，在这种情况下，我们保持赛道 3 的原始输出。

4. 实验结果

实验在两个平台上进行：（1）本地系统，配备英特尔酷睿 i7-12650H CPU、NVIDIA RTX 4050 GPU 和 16 GB 内存，主要用于数据处理；（2）高性能计算（HPC）系统 [27]，配备 NVIDIA H100 GPU 和 80 GB 内存，主要用于模型训练。所有模型均使用默认设置（例如，图像输入尺寸为 640，跟踪缓冲区为 30 帧）进行训练，除非在内容或表格中另有说明。本节首先介绍三个赛道的评估指标，随后是 SOT 和 MOT 任务的结果。然后，我们展示排行榜排名，并讨论关键考虑因素以及可能进一步提高无人机跟踪性能的图像增强技术。

4.1. 评估指标

三个竞赛赛道使用了两种评估指标。第一个指标适用于赛道 1 和 2，其中跟踪精度定义如下：

MOTA 的取值范围为 −∞ 到 1，值越高表示跟踪性能越好。最终得分通过对所有序列的 MOTA 进行平均得到。以下各节将根据上述指标对所有性能结果进行呈现和评估。

4.2. 赛道 1 和 2 的评估结果

我们将赛道 1 和 2 的评估结果一起呈现，因为这两个赛道都是单目标跟踪（SOT）任务，唯一的区别在于是否提供无人机的初始位置。表 3 中展示了两个赛道的八次有意义的试验。试验 1 和 2 作为消融研究，用于评估 BoT-SORT 的影响。结果表明，仅通过在 YOLOv12n 检测器后添加 BoT-SORT，性能就显著提高：赛道 1 的得分从 0.0786 提高到 0.5529，赛道 2 的得分从 0.0992 提高到 0.3106。试验 2 至 6 评估了不同检测器模型大小（n, s, m, l, x），其中 YOLOv12l 在两个赛道上均取得了最高得分。试验 7 检验了延长至 300 个训练周期的效果，结果表明与 100 个训练周期相比，性能有所下降，这可能是由于过拟合。最后，试验 8 显示了我们提交的最高得分，通过将最小框面积阈值从 10 调整为 4（赛道 1）和 1（赛道 2），以更好地捕捉可能被默认设置遗漏的小型无人机。

4.3. 赛道 3 的评估结果

赛道 3 的评估结果可以分为四个关键观察点。如表 4 所示，组 1 展示了使用不同 YOLOv12 模型大小的结果，发现尽管是最小的模型，YOLOv12n 却取得了最佳性能。组 2 检验了不同跟踪缓冲区大小的效果，发现在使用 60 个缓冲帧时得分最高，表明这种配置优化了身份重新关联过程。组 3 探讨了不同输入图像分辨率的影响。与默认的 640 分辨率相比，1280 和 1600 的输入分辨率均显著提高了性能。组 4 讨论了涉及不同 ReID 模块的试验。试验 13 使用完整的 ReID 数据集，而试验 14 至 19 均在减小的 ReID 数据集上进行训练。该组还评估了不同配置的影响，包括 ReID 模块结构的变化、度量学习策略以及训练周期数。

从这些结果中，我们得出以下结论：（1）ResNet-50 作为强基线系列的骨干网络优于带有实例-批量归一化的 ResNet-101，用于 ReID 模块；（2）将度量学习中的三元组损失替换为 CircleLoss 可以提高性能；（3）随着训练周期数的增加，ReID 模块倾向于过拟合。根据所有组的试验结果，我们得出以下关于相对于试验 1 的得分变化的结论：（1）模型大小对性能的影响约为 0.001；（2）跟踪缓冲区大小对得分的影响约为 0.0001；（3）输入图像分辨率的影响最为显著，得分提高了约 0.1；（4）ReID 模块对得分的贡献约为 0.01。基于这些见解，试验 20（我们提交的最高得分）采用了以下配置：YOLOv12n，图像分辨率为 1600，训练 11 个周期，结合 BoT-SORT-SBS-S50，使用 CircleLoss，通过 AdamW [24] 优化，并训练 17 个周期。

4.4. 排行榜结果

根据三个赛道的所有试验结果，如表 3 和表 4 所示，我们在表 5 中报告了排行榜结果，包括每个赛道的前三名得分、我们的提交得分以及官方基线得分。尽管我们的得分与前三名之间仍存在差距，赛道 1、2 和 3 的差距分别为 0.1332、0.1971 和 0.0502，但我们的表现与基线相比有了显著提升。具体来说，我们在赛道 1 和 3 上的得分大约是基线得分的两倍，在赛道 2 上的得分几乎是基线得分的五倍。值得注意的是，这些结果是在没有使用图像增强技术或在训练中利用时间信息的情况下获得的。从我们的强基线出发，整合这些先进技术有望显著提高性能，并使进入前三名成为可能。

4.5. 讨论和增强技术

评估结果揭示了几个关键见解。首先，由于我们的数据拆分策略，出现了过拟合现象。为了最大化场景多样性，我们没有根据属性（如固定相机设置或背景类型，例如天空或建筑物）对视频进行分类。相反，我们直接将数据集拆分为训练、验证和测试集，有时会导致同一视频的帧出现在多个拆分中。这可能促成了过拟合现象，因为在本地测试中发现了平均精度（AP）得分的差异。其次，准确地将提供的初始目标位置重新缩放到训练和推理中使用的分辨率至关重要，因为不匹配可能会误导跟踪器并降低后续预测的准确性。第三，增加图像分辨率是打破性能平台的关键，当参数调整无法提高准确性时。例如，从 640 分辨率扩展到 1280 分辨率可以显著提高得分，大约提高 0.1。然而，进一步增加分辨率会产生递减的收益，因为以 2560 分辨率训练 7 个周期的得分仅为 0.7072，而以 3840 分辨率训练 1 个周期的得分为 0.7098，而两者都需要比以 1280 分辨率训练的计算成本高得多。第四，在使用 YOLOv12 和 BoT-SORT-ReID 进行推理时，内存消耗会随着时间的推移而累积，导致程序崩溃。为了解决这个问题，我们按文件夹而不是一次性处理所有序列的方式执行推理。最后，在具有准确初始目标位置的运行与没有准确初始目标位置的运行之间观察到明显的性能差距，这从赛道 1 和 2 之间的性能差异中可以看出。这突显了及时、可靠地估计初始位置对于进一步提高跟踪性能的关键重要性。此外，正如前面讨论的那样，尽管我们的方法提供了一个强基线，但如果没有进一步的改进，它仍然不足以达到顶尖性能。图 4（a）展示了我们的模型在各种场景中的预测结果，而图 4（b）突出了几个关键的失败案例：（1）重叠的无人机经常导致身份切换；（2）将无人机与飞行生物区分开来仍然是一个挑战，模型经常在短暂遮挡后为无人机重新分配新的身份；（3）复杂背景导致漏检和跟踪失败；（4）在杂乱环境中的小型无人机提供的有价值信息很少，使得检测极不可靠。最后一行的相应热图说明了模型在这些具有挑战性的条件下有效感知无人机的能力不足。这些限制强调了图像增强技术的重要性，以进一步提高性能。图 5 展示了几种潜在的图像增强方法。从左到右：（1）原始热红外帧；（2）基于 Sobel 的边缘锐化 [10]，它比原始图像更清晰地突出边缘；（3）通过对比度受限的自适应直方图均衡化（CLAHE）[28] 改善对比度；（4）ReynoldsFlow+ [4]，基于雷诺输运定理 [31] 的时间增强方法，它是莱布尼茨积分法则 [9] 的三维推广，为移动无人机提供了增强的外观。

5. 结论

本文为基于热红外视频的多无人机跟踪任务提供了一个强基线。通过整合 YOLOv12 与 BoT-SORT，我们的方法显著优于基线。通过在训练和推理过程中采用额外的策略，如实验结果中所述，我们展示了我们的方法有潜力进入前三名，正如在赛道 3 的表现中所看到的。我们还确定了与初始试验相比影响性能的关键因素：模型大小贡献约为 0.001，跟踪缓冲区大小对得分的影响约为 0.0001，输入图像分辨率提供了最显著的影响，得分提高了约 0.1，而 ReID 模块增加了大约 0.01。尽管我们的方法直观且直接，但我们提出了几种潜在的技术，以进一步提高准确性。总体而言，我们的方法建立了一个强基线，主要得益于最新的 YOLOv12 检测器和先进的 BoT-SORT 跟踪算法，成为无人机集群跟踪领域最新进展的一个强有力的起点。