关于MOT常见数据集和评价指标的总结

曼城的天空是蓝色的

已于 2024-01-22 21:08:51 修改

阅读量1.9k

点赞数 18

文章标签：人工智能 python 目标跟踪计算机视觉算法机器学习

于 2024-01-15 22:45:56 首次发布

本文链接：https://blog.csdn.net/qq_73966123/article/details/134468754

版权

1、数据集

1.1、以行人追踪为代表的低速非刚体物体追踪

1、数据集

将针对经典MOT数据集进行简单介绍，目录分析等

1.1、以行人追踪为代表的低速非刚体物体追踪

具有以下特点：

目标运动模式简单，一般可以被很好地近似为匀速线性运动；

目标的外观差别很大，当目标的检测框准确时，外观相似度匹配可以很好的完成追踪任务。

相较于匹配算法的改进，更加重视改善目标检测的性能，相关数据集使用MOTA作为主要的评价指标，更进一步加重这一现象

依赖外观匹配，对于目标追踪中的其他线索，如运动模型等并不重视。

1.1.1、MOT17

MOT Challenge是MOT领域一个很有影响力的比赛，从2015年至今每年都有多篇参赛项目发表于iccv、cvpr、eccv等会议，由官方提供的来检验参赛者的算法的性能

目标有行人、车辆、自行车等，主要标注移动的目标，包含移动或被遮挡的的行人、车辆等

MOT17

train

6个视频序列（每个视频序列提供3个检测器：DPM、FRCNN、SDP）

det：det.txt包含检测物体的信息，包含帧数、轨迹编号等

gt：gt.txt包含检测物体的信息，包含目标种类、和其他目标联系等

img1：视频一帧帧抽出的图片

seqinfo：seqinfo.ini包含视频基本信息

test

6个视频序列（每个视频序列提供3个检测器：DPM、FRCNN、SDP）

同train，不包含gt

想要得到测试集的结果需要向MOT Challeng官网上传结果去评估

1.1.2、MOT20

（没有区分检测器）

MOT20

train

4个视频序列

同MOT17/train

test

4个视频序列

同MOT17/test

1.1.3、DanceTrack

由于1.1节所提供的数据集依赖外观匹配，忽略了一些其他线索，为了强调一些所忽略的目标追踪线索，避免MOT变成完全的Detection + ReID，提出DanceTrack数据集，可以促进之后的算法在关注目标检测之外，可以在目标匹配上更多地关注目标外观之外的线索

包含100段视频，内容包括集体舞蹈、功夫、体操等，共同特点是：（1）目标人物穿着相似甚至一致；（2）目标之间有大量的遮挡和位置交错；（3）目标的运动模式非常复杂多样，呈现明显的非线性，并且时常伴随多样的肢体动作

1.2、以车辆追踪为代表的高速刚体追踪

1.2.1、BDD100k

伯克利大学AI实验室（BAIR）发布了目前最大规模、内容最具多样性的公开驾驶数据集BDD100K，同时设计了一个图片标注系统，包含10万段约40秒的高清视频，每个视频的第10秒对关键帧进行采样，得到10万张图片并标注

标签：行人、车辆、自行车、火车等10个类别

天气：晴天、多云、阴天、下雨、下雪、雾天6种天气，以晴天为主

场景：住宅区、公路、城市街道、停车场、加油站、隧道6种场景，以城市街道为主

时间：黎明/黄昏、白天、夜晚3个阶段，其中白天、夜晚居多

内容包含：

        1、道路目标边界框：10万张图片
        其中：训练集7万，测试集2万，验证集1万
        2、可行驶区域：10万张图片
        3、车道线标记：10万张图片
        4、全帧实例分割：1万张图片

1.2.2、KITT

【深度估计】KITTI数据集介绍与使用说明 - 知乎 (zhihu.com)

KITTI数据集是一个广泛应用于计算机视觉和自动驾驶研究领域的公开数据集。该数据集由德国卡尔斯鲁厄理工学院（Karlsruhe Institute of Technology）和丰田美国技术研究院（Toyota Research Institute）合作创建，并以德国卡尔斯鲁厄市的街道为背景。

KITTI数据集包含了大量的真实场景下采集的图像、激光雷达点云和传感器数据，涵盖了城市街景、高速公路和乡村道路等不同驾驶场景。数据集中的图像和激光雷达数据提供了丰富的视觉和几何信息，可用于目标检测、目标跟踪、立体视觉、语义分割等多个计算机视觉任务。

KITTI数据集中的标注信息包括车辆、行人、自行车等目标的边界框、3D边界框、运动估计等，为目标检测、目标跟踪和立体视觉任务提供了准确的标签。此外，数据集还包含了全球定位系统（GPS）数据和惯性测量单元（IMU）数据，可用于定位和姿态估计等任务。

由于其真实场景和丰富的标注信息，KITTI数据集成为了计算机视觉和自动驾驶领域中的重要基准数据集之一，被广泛用于算法评估、模型训练和性能比较。研究人员和工程师可以利用KITTI数据集来验证和改进他们的算法和系统，在推动自动驾驶和视觉感知技术的发展方面发挥重要作用。

2、评价指标

多目标跟踪(MOT,Multiple Object Tracking)评价指标_多目标跟踪评价指标介绍-CSDN博客

MOT多目标跟踪评价指标及计算代码（持续更新） - 知乎 (zhihu.com)

2.1、基础名词

GT：Ground Truth，是指真实的标签或真实的对象

真阳性（TP）：真正(True Positive)指被模型预测为正的正样本（或被检测出来的GT）

真阴性（TN）：真负(True Negative)指被模型预测为负的负样本。

假阳性（FP）（错误检测数）

实际上为负类别但被错误地分类为正类别的样本数量，表示模型将负类别误判为正类别的能力

假阴性（FN）（遗漏检测数）

实际上为正类别但被错误地分类为负类别的样本数量，表示模型将正类别误判为负类别的能力

2.2、经典指标

准确性：

正确检测数量占占总数的比例

accuracy = (TP+TN) / (TP+TN+FP+FN)

召回率（Recall）：

正确匹配检测数与地面真实检测数的比率

recall = TP /（TP+FN）
精度（Precision）：

正确匹配检测数与总结果检测数的比率

多目标跟踪精度(MODP)度量测量预测检测和地面真相之间的对齐质量

precision = TP / (TP+FP)

HOTA

How to evaluate tracking with the HOTA metrics | by Jonathon Luiten | Medium

HOTA 可以被认为是三个 IoU 分数的组合。它将评估跟踪的任务分为三个子任务（检测、关联和定位），并使用 IoU（交集而不是并集）公式（也称为 Jaccard 指数）计算每个子任务的分数。然后，它将每个子任务的这三个 IoU 分数合并到最终的 HOTA 分数中

定位准确度（LocA）

定位测量一个预测检测和一个地面实况检测之间的空间对齐

Loc-IoU为Localization IoU，为两个检测之间的重叠（交叉点）与两个检测（并集）覆盖的总面积之比，以衡量本地化准确性，求平均值后即为定位准确度

与其说Loc-IoU为一个比例，不如说它是一个阈值，在对应的阈值下相应的指标才有意义

检测准确度（DetA）

检测测量所有预测检测的集合与所有地面实况检测的集合之间的一致性

Det-IoU为Detection IoU，需要定义一个定位阈值（一般为0.5），大于阈值即检测相交，通过相交面积（TP）与总面积（所有检测的并集）之比求得，Loc-IoU 测量单个预测检测与地面实况检测之间的对齐情况，而 Det-IoU 现在测量所有预测检测集与所有地面实况检测集之间的对齐情况

关联准确度（AssA）

衡量跟踪器在一段时间内将检测链接到相同身份（ID）的程度

Ass-IoU为Association IoU，通过将预测检测和地面实况检测匹配在一起（如匈牙利匹配）并测量该预测检测的整个轨迹与地面实况检测的整个轨迹之间的对齐情况来衡量，真阳性关联（TPA）为两条轨道之间的交集可以测量为两条轨道之间的真阳性匹配次数，误报关联（FPA）是预测轨迹中的任何剩余检测，假阴性关联（FNA）是真值轨迹中的任何剩余检测

然后过对整个数据集中所有匹配的预测和地面实况检测对的 Ass-IoU 求平均值得到AssA

整体跟踪准确度（HOTA）