跟踪篇(4)--对于MOT16 Benchmark的理解

本文主要是看了这篇论文:MOT16: A Benchmark for Multi-Object Tracking
文章的下载地址为:https://arxiv.org/pdf/1603.00831.pdf
之前介绍的OTB数据集主要是单目标跟踪,而MOT,是Multi-Object Tracking,故名思意,主要是针对多目标跟踪的数据集。

MOT16数据集的介绍

这个数据集总共包括14个序列,不仅仅包括行人,还有交通工具,坐着的人,遮挡目标和其他重要的类别,后续会详细介绍。数据集的下载地址为:https://motchallenge.net/data/MOT16/#download。界面如下图所示:
在这里插入图片描述

大概有1.9G的数据。

在14个视频序列中,又有7个为训练集,7个为测试集,解压后具体分类如下图:
在这里插入图片描述
如果对这些数据集进行部分显示,可以看到论文中的图片:
在这里插入图片描述
上图中有两行,第一行为训练集,第二行为测试集,对于每个序列的详细信息如下表所示:
在这里插入图片描述
第一个表格为训练集的数据,第二个表格为测试集的数据。可以看到数据集的FPS(即视频的帧率),Resolution(图片的尺寸),Length(时间长度),Tracks(标注轨迹的数量),Boxes(总的标注的行人的数量),Density(平均每帧的行人数量),Camera(相机运动情况),Viewpoint(拍摄的视角),Conditions(天气情况),Source(视频来源的新旧)。

测试

作者在MOT16上进行了多个目标检测算法,来测试数据的标注框。其中目标检测算法得到的准确率和召回率曲线如下图所示,可以看到DPM v5的算法结果最好,所以作者使用DPM。
注意:R-CNN除了人以外,其他检测效果都比DPM好,但是MOT16主要就是对行人进行检测,所以作者选择DPM.
在这里插入图片描述

下表是使用预训练好的DPM方法检测MOT16数据的具体统计结果,可以看到14个视频序列,nDet.(目标检测的总数),nDet./fr.(平均每帧目标检测数),min height(检测出的bounding box的最低的位置),max height(检测出的bounding box的最高的位置)。

在这里插入图片描述

数据的组织形式

所有的视频都是JPEG的图片格式,命名方式为6个数字,如(000001.jpg)。检测和标注的文件都是CSV(comma-separated value,逗号分隔值)文件,每一行都表示一个目标实例信息,每一行包含9个值。
下图为检测文件的数据格式:

在这里插入图片描述
下图为标注文件的数据格式:

在这里插入图片描述
每一行数值的具体含义如下图所示:
在这里插入图片描述
LZ来具体说一下:

位置名字描述
1帧的位置表示目标出现在第几帧
2ID号码每个运动轨迹的ID号,在目标检测中为-1
3边界框的左侧数值行人边界框左上角的左边的坐标
4边界框上端数值行人边界框左上角的上端的坐标
5边界框的宽度边界框宽度的像素数
6边界框的高度边界框高度的像素数
7信心值目标检测表示的信心值(在标注文件中作为flag,0表示在评估时可以忽略,1表示需要计算)
8标记目标的种类在标记文件中表示标记目标的种类(在检测文件中为-1)
9可见性在标记文件中,数值在0-1之间的数字,表示目标的可见性,产生的原因可能是遮挡或者对图像进行裁剪(在检测文件中为-1)

具体的标记目标的分类,总共有12种,如下所示:
在这里插入图片描述

MOT16数据集的标注规则

在这里插入图片描述
其实,主要分为三大类,上述的表格转换成下图,原文中其实都有:
在这里插入图片描述
在实际的评测中只有Target中会计入评估,其他的标注只是为了帮助训练。
所以按照上述的图表,将所有标注的数据分为三类:
1.Target: 移动和站立的行人,包括在自行车或者滑板上的人,假如一个人短暂的弯腰、深蹲,捡东西,或者与小孩子交谈。

2.Ambiguous: 不处于直立状态的人(例如躺着或者坐着的人),或者类似人的目标(例如模特,出现人的图片,玻璃中反射出的人,或者人在玻璃后也属于干扰项),这些都是属于Ambiguous。

3.Other: 所有移动的车辆和非机动车辆,如婴儿车,和其他存在潜在的遮挡关系。这个类比仅作训练使用,因为不算在评价准则中。静态的车辆或者自行车如果没有行人则不包含在这个类别中。

Bounding box标注满足的要求

1.尽可能贴近目标,则行人在运动时边界框的大小时改变的

2.尽可能早开始,尽可能晚结束(10%的行人可见时即被标注)

3.如果消失后重新出现,ID会进行变化。

4.会进行检查

评价方法

1.MOTA:Mutiple Object Tracking Accuracy
在这里插入图片描述
其中 t t t表示第 t t t帧,GT是groundtruth的 数量,FN是false negative,即确实是目标,却被认为不是目标。FP是false true,即原名不是目标却被检测成目标。IDSW是指identity swith是指ID不匹配的错误。

2.MOTP:Mutiple Object Tracking Precision
在这里插入图片描述
c t c_t ct是指第 t t t帧中匹配的数量, d t , i d_{t,i} dt,i是值目标 i i i检测的边界框与真实值的交叠部分,即通常说的overlap

3Track quality measures:

a.MT( mostly tracked): 跟踪成功率超过80%

b.PT(partially tracked): 跟踪成功率在20%~80%

c.ML(mostly lost): 跟踪成功率低于20%

d.FM(track fragmentation): 真实值的轨迹被打断的次数

Baseline on MOT16

在这里插入图片描述
哇,感觉这篇写的很详细了。。。下面附张图:
在这里插入图片描述
酷炫的结果,速度也很快!!!!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值