yolov11+bytetrack的目标跟踪实现

QTreeY123

已于 2025-02-25 01:35:41 修改

阅读量6.5k

点赞数 33

文章标签： YOLO 目标检测目标跟踪人工智能计算机视觉 yolo 机器学习

于 2024-10-03 19:06:10 首次发布

本文链接：https://blog.csdn.net/m0_56175815/article/details/142671906

版权

ByteTrack: Multi-Object Tracking by Associating Every Detection Box

yolov11介绍——实时端到端物体检测

概述

YOLO11 是 Ultralytics YOLO 系列实时物体检测器的最新版本，重新定义了在尖端准确度、速度和效率方面的可能性。在前几代 YOLO 版本的显著进步基础上，YOLO11 在架构和训练方法上引入了重大改进，使其成为广泛计算机视觉任务的灵活选择。

主要特征

增强特征提取：YOLO11 使用了改进的主干和颈部架构，这增强了特征提取能力，以实现更精确的物体检测和复杂任务的执行。

优化以提高效率和速度：YOLO11 引入了精简的架构设计和优化的训练管道，提供更快的处理速度，并保持了准确性与性能之间的最佳平衡。

参数更少，精度更高：随着模型设计的改进，YOLO11m 在 COCO 数据集上的平均精度（mAP）更高，同时比 YOLOv8m 使用的参数减少了 22%，使其在保持高精度的同时计算效率更高。

适应跨环境：YOLO11 可以无缝部署在各种环境中，包括边缘设备、云平台以及支持 NVIDIA GPU 的系统，确保最大程度的灵活性。

支持的任务范围广泛：无论是对象检测、实例分割、图像分类、姿态估计，还是定向对象检测（OBB），YOLO11 都旨在应对多样化的计算机视觉挑战

支持的任务和模式

YOLO11 在 YOLOv8 引入的多功能模型系列基础上构建，提供了针对各种计算机视觉任务增强的支持：

这张表格提供了 YOLO11 模型变体的概览，展示了它们在特定任务中的适用性以及与推理、验证、训练和导出等操作模式的兼容性。这种灵活性使 YOLO11 适用于计算机视觉的广泛应用，从实时检测到复杂的分割任务。

性能指标

总结

Ultralytics YOLO11 相比于之前的版本，关键的改进有哪些？
        增强特征提取：YOLO11 使用了改进的主干和颈部架构，增强了特征提取能力，从而实现更精确的物体检测。
        优化效率与速度：精简的建筑设计和优化的训练管道在保持准确性和性能平衡的同时，提供更快的处理速度。
        参数更少，精度更高：YOLO11m 在 COCO 数据集上使用比 YOLOv8m 少 22% 的参数实现了更高的平均精度（mAP），使其在保持高精度的同时计算效率更高。
        适应不同环境：YOLO11 可以部署在各种环境中，包括边缘设备、云平台以及支持 NVIDIA GPU 的系统。
        支持的任务范围广泛：YOLO11 支持多种计算机视觉任务，包括对象检测、实例分割、图像分类、姿态估计和定向对象检测（OBB）。

ByteTrack: Multi-Object Tracking by Associating Every Detection Box

沿着多目标跟踪（MOT）中tracking-by-detection的范式，我们提出了一种简单高效的数据关联方法BYTE。利用检测框和跟踪轨迹之间的相似性，在保留高分检测结果的同时，从低分检测结果中去除背景，挖掘出真正的物体（遮挡、模糊等困难样本），从而降低漏检并提高轨迹的连贯性。BYTE能轻松应用到9种state-of-the-art的MOT方法中，并取得1-10个点不等的IDF1指标的提升。基于BYTE我们提出了一个跟踪方法ByteTrack，首次以30 FPS的运行速度在MOT17上取得80.3 MOTA，77.3 IDF1和63.1 HOTA，目前位居MOTChallenge榜单第一。我们还在开源代码中加入了将BYTE应用到不同MOT方法中的教程以及ByteTrack的部署代码。

Paper: http://arxiv.org/abs/2110.06864

纵轴是MOTA，横轴是FPS，圆的半径代表IDF1的相对大小

1. Motivation

Tracking-by-detection是MOT中的一个经典高效的流派，通过相似度（位置、外观、运动等信息）来关联检测框得到跟踪轨迹。由于视频中场景的复杂性，检测器无法得到完美的检测结果。为了处理true positive/false positive的trade-off，目前大部分MOT方法会选择一个阈值，只保留高于这个阈值的检测结果来做关联得到跟踪结果，低于这个阈值的检测结果直接丢弃。但是这样做合理吗？答案是否定的。黑格尔说过：“存在即合理。”低分检测框往往预示着物体的存在（例如遮挡严重的物体）。简单地把这些物体丢弃会给MOT带来不可逆转的错误，包括大量的漏检和轨迹中断，降低整体跟踪性能。

2. BYTE

为了解决之前方法丢弃低分检测框的不合理性，我们提出了一种简单、高效、通用的数据关联方法BYTE (each detection box is a basic unit of the tracklet, as byte in computer program)。直接地将低分框和高分框放在一起与轨迹关联显然是不可取的，会带来很多的背景（false positive）。BYTE将高分框和低分框分开处理，利用低分检测框和跟踪轨迹之间的相似性，从低分框中挖掘出真正的物体，过滤掉背景。整个流程如下图所示：

（1）BYTE会将每个检测框根据得分分成两类，高分框和低分框，总共进行两次匹配。

（2）第一次使用高分框和之前的跟踪轨迹进行匹配。

（3）第二次使用低分框和第一次没有匹配上高分框的跟踪轨迹（例如在当前帧受到严重遮挡导致得分下降的物体）进行匹配。

（4）对于没有匹配上跟踪轨迹，得分又足够高的检测框，我们对其新建一个跟踪轨迹。对于没有匹配上检测框的跟踪轨迹，我们会保留30帧，在其再次出现时再进行匹配。

我们认为，BYTE能work的原因是遮挡往往伴随着检测得分由高到低的缓慢降低：被遮挡物体在被遮挡之前是可视物体，检测分数较高，建立轨迹；当物体被遮挡时，通过检测框与轨迹的位置重合度就能把遮挡的物体从低分框中挖掘出来，保持轨迹的连贯性。

3. ByteTrack

ByteTrack使用当前性能非常优秀的检测器YOLOX得到检测结果。在数据关联的过程中，和SORT一样，只使用卡尔曼滤波来预测当前帧的跟踪轨迹在下一帧的位置，预测的框和实际的检测框之间的IoU作为两次匹配时的相似度，通过匈牙利算法完成匹配。这里值得注意的是我们没有使用ReID特征来计算外观相似度：

（1）第一点是为了尽可能做到简单高速，第二点是我们发现在检测结果足够好的情况下，卡尔曼滤波的预测准确性非常高，能够代替ReID进行物体间的长时刻关联。实验中也发现加入ReID对跟踪结果没有提升。

（2）如果需要引入ReID特征来计算外观相似度，可以参考我们开源代码中将BYTE应用到JDE，FairMOT等joint-detection-and-embedding方法中的教程。

（3）ByteTrack只使用运动模型没有使用外观相似度能在MOT17，20取得高性能的本质原因是MOT数据集的运动模式比较单一