本文主要是看了这篇论文:MOT16: A Benchmark for Multi-Object Tracking
文章的下载地址为:https://arxiv.org/pdf/1603.00831.pdf
之前介绍的OTB数据集主要是单目标跟踪,而MOT,是Multi-Object Tracking,故名思意,主要是针对多目标跟踪的数据集。
MOT16数据集的介绍
这个数据集总共包括14个序列,不仅仅包括行人,还有交通工具,坐着的人,遮挡目标和其他重要的类别,后续会详细介绍。数据集的下载地址为:https://motchallenge.net/data/MOT16/#download。界面如下图所示:
大概有1.9G的数据。
在14个视频序列中,又有7个为训练集,7个为测试集,解压后具体分类如下图:
如果对这些数据集进行部分显示,可以看到论文中的图片:
上图中有两行,第一行为训练集,第二行为测试集,对于每个序列的详细信息如下表所示:
第一个表格为训练集的数据,第二个表格为测试集的数据。可以看到数据集的FPS(即视频的帧率),Resolution(图片的尺寸),Length(时间长度),Tracks(标注轨迹的数量),Boxes(总的标注的行人的数量),Density(平均每帧的行人数量),Camera(相机运动情况),Viewpoint(拍摄的视角),Conditions(天气情况),Source(视频来源的新旧)。
测试
作者在MOT16上进行了多个目标检测算法,来测试数据的标注框。其中目标检测算法得到的准确率和召回率曲线如下图所示,可以看到DPM v5的算法结果最好,所以作者使用DPM。
注意:R-CNN除了人以外,其他检测效果都比DPM好,但是MOT16主要就是对行人进行检测,所以作者选择DPM.
下表是使用预训练好的DPM方法检测MOT16数据的具体统计结果,可以看到14个视频序列,nDet.(目标检测的总数),nDet./fr.(平均每帧目标检测数),min height(检测出的bounding box的最低的位置),max height(检测出的bounding box的最高的位置)。
数据的组织形式
所有的视频都是JPEG的图片格式,命名方式为6个数字,如(000001.jpg)。检测和标注的文件都是CSV(comma-separated value,逗号分隔值)文件,每一行都表示一个目标实例信息,每一行包含9个值。
下图为检测文件的数据格式:
下图为标注文件的数据格式:
每一行数值的具体含义如下图所示:
LZ来具体说一下:
位置 | 名字 | 描述 |
---|---|---|
1 | 帧的位置 | 表示目标出现在第几帧 |
2 | ID号码 | 每个运动轨迹的ID号,在目标检测中为-1 |
3 | 边界框的左侧数值 | 行人边界框左上角的左边的坐标 |
4 | 边界框上端数值 | 行人边界框左上角的上端的坐标 |
5 | 边界框的宽度 | 边界框宽度的像素数 |
6 | 边界框的高度 | 边界框高度的像素数 |
7 | 信心值 | 目标检测表示的信心值(在标注文件中作为flag,0表示在评估时可以忽略,1表示需要计算) |
8 | 标记目标的种类 | 在标记文件中表示标记目标的种类(在检测文件中为-1) |
9 | 可见性 | 在标记文件中,数值在0-1之间的数字,表示目标的可见性,产生的原因可能是遮挡或者对图像进行裁剪(在检测文件中为-1) |
具体的标记目标的分类,总共有12种,如下所示:
MOT16数据集的标注规则
其实,主要分为三大类,上述的表格转换成下图,原文中其实都有:
在实际的评测中只有Target中会计入评估,其他的标注只是为了帮助训练。
所以按照上述的图表,将所有标注的数据分为三类:
1.Target: 移动和站立的行人,包括在自行车或者滑板上的人,假如一个人短暂的弯腰、深蹲,捡东西,或者与小孩子交谈。
2.Ambiguous: 不处于直立状态的人(例如躺着或者坐着的人),或者类似人的目标(例如模特,出现人的图片,玻璃中反射出的人,或者人在玻璃后也属于干扰项),这些都是属于Ambiguous。
3.Other: 所有移动的车辆和非机动车辆,如婴儿车,和其他存在潜在的遮挡关系。这个类比仅作训练使用,因为不算在评价准则中。静态的车辆或者自行车如果没有行人则不包含在这个类别中。
Bounding box标注满足的要求
1.尽可能贴近目标,则行人在运动时边界框的大小时改变的
2.尽可能早开始,尽可能晚结束(10%的行人可见时即被标注)
3.如果消失后重新出现,ID会进行变化。
4.会进行检查
评价方法
1.MOTA:Mutiple Object Tracking Accuracy
其中
t
t
t表示第
t
t
t帧,GT是groundtruth的 数量,FN是false negative,即确实是目标,却被认为不是目标。FP是false true,即原名不是目标却被检测成目标。IDSW是指identity swith是指ID不匹配的错误。
2.MOTP:Mutiple Object Tracking Precision
c
t
c_t
ct是指第
t
t
t帧中匹配的数量,
d
t
,
i
d_{t,i}
dt,i是值目标
i
i
i检测的边界框与真实值的交叠部分,即通常说的overlap
3Track quality measures:
a.MT( mostly tracked): 跟踪成功率超过80%
b.PT(partially tracked): 跟踪成功率在20%~80%
c.ML(mostly lost): 跟踪成功率低于20%
d.FM(track fragmentation): 真实值的轨迹被打断的次数
Baseline on MOT16
哇,感觉这篇写的很详细了。。。下面附张图:
酷炫的结果,速度也很快!!!!