一句话总结先,这是一个多行人目标的tracking数据集
Class
三部分
1、Target:运动中行人,包括走路、骑车等;站立的行人,包括蹲下以及弯腰。这部分除了骑车开车的参与evaluation
2、类行人物体:坐着的人、躺着的人、镜子里的折射等。不参与训练和测试。
3、其他:车、自行车等(运动不运动都有),遮挡物。有标注但不参与指标计算
tracking从行人出现身体10%开始计算知道消失在视野里,如果同一个行人在完全遮挡后又出现,会分配一个新的ID
Data format
Detection file
MOT会提供每一帧detection的结果,2016年主要用一个叫DPM的检测器,2017年提供了3种检测器(DPM\SDP\Faster RCNN)
Annotation file
Evaluation
Tracker-to-target assignment
首先
TP、FP:TP,即代表一个output对应一个target,或者是false alarm,即FP;这一步由一个阈值决定。
FN:如果target没有对应任何一个output,就代表的FN。希望FN、FP越少越好。
FAF:the false positive ratio measured by the number of false alarms per frame。和图像检测里的FPPI差不多。一般表现为一个target对应很多outputs。
其次
确保一个true object最多对应一个检侧结果。
之后,要求每个GT trajectory 只有一个开始和一个结束点。并且现在的指标无法handle re-ID。指标用匈牙利算法计算matching部分。但是要考虑整个video:t-1帧中GT object i matched to 预测 j ,那当 i 和 j 在 t 帧的distance小于阈值时,认为 i 和 j 之间的关系能跨越到 frame t 。即使在帧 t 有更接近target的预测,也不会承认。
IDSW:identity switch,当一个GT target i matched to track j,但是上一个已知assignment 是 k 和 target match。
4.1.2 Distance measure
用IOU>0.5
4.1.3 Target-like annotations
MOTA:
MOTP:
4.1.6 Track quality measures
MT:mostly tracked,超过80%被tracked
PT:partially tracked
ML:mostly lost,只track到20%
FM:the number of track fragmentations,被打断的次数