目录
1、数据集
将针对经典MOT数据集进行简单介绍,目录分析等
1.1、以行人追踪为代表的低速非刚体物体追踪
具有以下特点:
目标运动模式简单,一般可以被很好地近似为匀速线性运动;
目标的外观差别很大,当目标的检测框准确时,外观相似度匹配可以很好的完成追踪任务。
相较于匹配算法的改进,更加重视改善目标检测的性能,相关数据集使用MOTA作为主要的评价指标,更进一步加重这一现象
依赖外观匹配,对于目标追踪中的其他线索,如运动模型等并不重视。
1.1.1、MOT17
MOT Challenge是MOT领域一个很有影响力的比赛,从2015年至今每年都有多篇参赛项目发表于iccv、cvpr、eccv等会议,由官方提供的来检验参赛者的算法的性能
目标有行人、车辆、自行车等,主要标注移动的目标,包含移动或被遮挡的的行人、车辆等
目录:
MOT17
train
6个视频序列(每个视频序列提供3个检测器:DPM、FRCNN、SDP)
det:det.txt包含检测物体的信息,包含帧数、轨迹编号等
gt:gt.txt包含检测物体的信息,包含目标种类、和其他目标联系等
img1:视频一帧帧抽出的图片
seqinfo:seqinfo.ini包含视频基本信息
test
6个视频序列(每个视频序列提供3个检测器:DPM、FRCNN、SDP)
同train,不包含gt
想要得到测试集的结果需要向MOT Challeng官网上传结果去评估
1.1.2、MOT20
(没有区分检测器)
目录:
MOT20
train
4个视频序列
同MOT17/train
test
4个视频序列
同MOT17/test
1.1.3、DanceTrack
由于1.1节所提供的数据集依赖外观匹配,忽略了一些其他线索,为了强调一些所忽略的目标追踪线索,避免MOT变成完全的Detection + ReID,提出DanceTrack数据集,可以促进之后的算法在关注目标检测之外,可以在目标匹配上更多地关注目标外观之外的线索
包含100段视频,内容包括集体舞蹈、功夫、体操等,共同特点是:(1)目标人物穿着相似甚至一致;(2)目标之间有大量的遮挡和位置交错;(3)目标的运动模式非常复杂多样,呈现明显的非线性,并且时常伴随多样的肢体动作
1.2、以车辆追踪为代表的高速刚体追踪
1.2.1、BDD100k
伯克利大学AI实验室(BAIR)发布了目前最大规模、内容最具多样性的公开驾驶数据集BDD100K,同时设计了一个图片标注系统,包含10万段约40秒的高清视频,每个视频的第10秒对关键帧进行采样,得到10万张图片并标注
标签:行人、车辆、自行车、火车等10个类别
天气:晴天、多云、阴天、下雨、下雪、雾天6种天气,以晴天为主
场景:住宅区、公路、城市街道、停车场、加油站、隧道6种场景,以城市街道为主
时间:黎明/黄昏、白天、夜晚3个阶段,其中白天、夜晚居多
内容包含:
1、 道路目标边界框:10万张图片
其中:训练集7万,测试集2万,验证集1万
2、 可行驶区域:10万张图片
3、 车道线标记:10万张图片
4、 全帧实例分割:1万张图片
1.2.2、KITT
【深度估计】KITTI数据集介绍与使用说明 - 知乎 (zhihu.com)
KITTI数据集是一个广泛应用于计算机视觉和自动驾驶研究领域的公开数据集。该数据集由德国卡尔斯鲁厄理工学院(Karlsruhe Institute of Technology)和丰田美国技术研究院(Toyota Research Institute)合作创建,并以德国卡尔斯鲁厄市的街道为背景。
KITTI数据集包含了大量的真实场景下采集的图像、激光雷达点云和传感器数据,涵盖了城市街景、高速公路和乡村道路等不同驾驶场景。数据集中的图像和激光雷达数据提供了丰富的视觉和几何信息,可用于目标检测、目标跟踪、立体视觉、语义分割等多个计算机视觉任务。
KITTI数据集中的标注信息包括车辆、行人、自行车等目标的边界框、3D边界框、运动估计等,为目标检测、目标跟踪和立体视觉任务提供了准确的标签。此外,数据集还包含了全球定位系统(GPS)数据和惯性测量单元(IMU)数据,可用于定位和姿态估计等任务。
由于其真实场景和丰富的标注信息,KITTI数据集成为了计算机视觉和自动驾驶领域中的重要基准数据集之一,被广泛用于算法评估、模型训练和性能比较。研究人员和工程师可以利用KITTI数据集来验证和改进他们的算法和系统,在推动自动驾驶和视觉感知技术的发展方面发挥重要作用。
2、评价指标
多目标跟踪(MOT,Multiple Object Tracking)评价指标_多目标跟踪评价指标介绍-CSDN博客
MOT多目标跟踪评价指标及计算代码(持续更新) - 知乎 (zhihu.com)
2.1、基础名词
GT:Ground Truth,是指真实的标签或真实的对象
真阳性(TP):真正(True Positive)指被模型预测为正的正样本(或被检测出来的GT)
真阴性(TN):真负(True Negative)指被模型预测为负的负样本。
假阳性(FP)(错误检测数)
实际上为负类别但被错误地分类为正类别的样本数量,表示模型将负类别误判为正类别的能力
假阴性(FN)(遗漏检测数)
实际上为正类别但被错误地分类为负类别的样本数量,表示模型将正类别误判为负类别的能力
2.2、经典指标
准确性:
正确检测数量占占总数的比例
accuracy = (TP+TN) / (TP+TN+FP+FN)
召回率(Recall):
正确匹配检测数与地面真实检测数的比率
recall = TP /(TP+FN)
精度(Precision):
正确匹配检测数与总结果检测数的比率
多目标跟踪精度(MODP)度量测量预测检测和地面真相之间的对齐质量
precision = TP / (TP+FP)
HOTA
How to evaluate tracking with the HOTA metrics | by Jonathon Luiten | Medium
HOTA 可以被认为是三个 IoU 分数的组合。它将评估跟踪的任务分为三个子任务(检测、关联和定位),并使用 IoU(交集而不是并集)公式(也称为 Jaccard 指数)计算每个子任务的分数。然后,它将每个子任务的这三个 IoU 分数合并到最终的 HOTA 分数中
定位准确度(LocA)
定位测量一个预测检测和一个地面实况检测之间的空间对齐
Loc-IoU为Localization IoU,为两个检测之间的重叠(交叉点)与两个检测(并集)覆盖的总面积之比,以衡量本地化准确性,求平均值后即为定位准确度
与其说Loc-IoU为一个比例,不如说它是一个阈值,在对应的阈值下相应的指标才有意义
检测准确度(DetA)
检测测量所有预测检测的集合与所有地面实况检测的集合之间的一致性
Det-IoU为Detection IoU,需要定义一个定位阈值(一般为0.5),大于阈值即检测相交,通过相交面积(TP)与总面积(所有检测的并集)之比求得,Loc-IoU 测量单个预测检测与地面实况检测之间的对齐情况,而 Det-IoU 现在测量所有预测检测集与所有地面实况检测集之间的对齐情况
关联准确度(AssA)
衡量跟踪器在一段时间内将检测链接到相同身份 (ID) 的程度
Ass-IoU为Association IoU,通过将预测检测和地面实况检测匹配在一起(如匈牙利匹配)并测量该预测检测的整个轨迹与地面实况检测的整个轨迹之间的对齐情况来衡量,真阳性关联(TPA)为两条轨道之间的交集可以测量为两条轨道之间的真阳性匹配次数,误报关联 (FPA)是预测轨迹中的任何剩余检测,假阴性关联 (FNA)是真值轨迹中的任何剩余检测
然后过对整个数据集中所有匹配的预测和地面实况检测对的 Ass-IoU 求平均值得到AssA
整体跟踪准确度(HOTA)
所有三个组成部分(定位、检测和关联)对于跟踪成功都很重要,因此衡量所有这些组成部分非常重要,所以产生了HOTA指标
由于DetA 和 AssA 都是使用基于特定 Loc-IoU 阈值 (α) 的匈牙利匹配定义的。由于 DetA 和 AssA 都取决于 Loc-IoU 值,因此在一系列不同的α阈值上计算特定的
然后,通过对不同α阈值进行积分最后得到HOTA指标(也并非是一个连续的函数,而是将阈值分散为0.05、0.1至0.95一共19种,最后再求平均值)
2.3、准确性
衡量MOT算法的准确性
跟踪轨迹改变其匹配的真实身份的次数(IDS)
假阳性、假阴性和不匹配率的并集(MOTA)
尽管有一些缺点和批评,这是目前为止最广泛接受的评价措施的指标
MOTA = 1 - (FP+FN+IDS) / GT (负无穷,1)
正确检测到的目标数量占所有真实目标数量的比例(MODA)
需结合误检数和误报率,考虑假阳性和假阴性的相对数量
检测结果与真实目标之间的交叠度(IoU)的平均值(MODP)
平均每帧错误报警率(FAF)
一个视频序列平均每帧的错误报警次数(FAF/FPPI)
2.4、精度
衡量MOT算法的精度
估计位置和匹配上的基本事实间的交集(MOTP)
通过计算估计位置和匹配上的基本事实之间的平均欧氏距离来度量跟踪算法的精度
地面真实检测的标签与跟踪结果间的距离(TDE)
地面真实检测的标签与跟踪结果间的基数误差、标签误差和空间距离(OSPA)
2.5、完整性
完整性:衡量跟踪地面真实轨迹的程度
跟踪器输出覆盖的真实轨迹的百分比超过80%的长度(MT)(大多数跟踪)
被跟踪器输出覆盖的不到20%的地面真实轨迹的百分比(ML)(大部分丢失)
PT 1.0-MT-ML(部分跟踪)
在跟踪结果里一个地面真实轨迹被中断的次数(FM)(片段)
2.6、稳健性
评估MOT算法从遮挡中恢复的能力
从短期遮挡中恢复的轨道比率(RS)
从长期遮挡中恢复的轨道比率(RS)