多目标跟踪中经典的MOT16数据集和评价指标

最近要做一个有关多目标跟踪的项目,刚刚接触MOT,所以先来了解一下MOT16这个比较经典的数据集以及比较经典的评价标准。

1. 多目标跟踪

多目标跟踪处理的对象是视频,从视频的第一帧到最后一帧,里边有多个目标在不断运动。多目标跟踪的目的就是将每个目标和其他目标进行区分开来,具体方法是给每个目标分配一个ID,并记录他们的轨迹。

已开始接触,可能觉得直接将目标检测的算法应用在视频的每一帧就可以完成这个任务了。实际上,目标检测的效果是很不稳定的,其实最大的区别在于,仅仅使用目标检测无法给对象分配ID,并且跟踪能够优化整个跟踪过程,能让目标框更加稳定。

多目标跟踪中一个比较经典的和深度学习结合比较好的方法就是Detection Based Tracking,对前后两帧进行目标检测检测,然后根据得到的前后两帧的所有目标进行匹配,从而维持ID。初学者接触比较多的就是SORT和Deep SORT算法了。

2. MOT16数据集

MOT16数据集是在2016年提出来的用于衡量多目标跟踪检测和跟踪方法标准的数据集,专门用于行人跟踪。官网地址是:https://motchallenge.net/

从官网下载的数据是按照以下的文件结构进行组织的:

- MOT16
	- train
		- MOT16-02
			- det
				- det.txt
			- gt
				- gt.txt
			- img1
			- seqinfo.init
		- MOT16-04
		- MOT16-05
		- MOT16-09
		- MOT16-10
		- MOT16-11
		- MOT16-13
	- test
		- MOT16-01
			- det
				- det.txt
			- img1
			- seqinfo.ini
		- MOT16-03
		- MOT16-06
		- MOT16-07
		- MOT16-08
		- MOT16-12
		- MOT16-14		

在MOT16数据集中,是包含了检测得到的框的,这样是可以免去目标检测这个部分,提供统一的目标检测框以后,然后可以比较目标跟踪更关注的部分,而不用在花费精力在目标检测上。

  1. seqinfo.ini

在每个子文件夹中都有这个,主要用于说明这个文件的一些信息,比如长度,帧率,图片的长和宽,图片的后缀名。

[Sequence]
name=MOT16-09
imDir=img1
frameRate=30
seqLength=525
imWidth=1920
imHeight=1080
imExt=.jpg
  1. det.txt

这个文件中存储了图片的检测框的信息(检测得到的信息文件),部分内容展示如下:

1,-1,1359.1,413.27,120.26,362.77,2.3092,-1,-1,-1
1,-1,571.03,402.13,104.56,315.68,1.5028,-1,-1,-1
1,-1,650.8,455.86,63.98,193.94,0.33276,-1,-1,-1
1,-1,721.23,446.86,41.871,127.61,0.27401,-1,-1,-1
2,-1,460.48,442.1,90.896,274.69,0.26749,-1,-1,-1
2,-1,643.66,461.78,59.629,180.89,0.18023,-1,-1,-1
2,-1,1494.4,408.29,112.14,338.41,0.16075,-1,-1,-1
2,-1,572.83,364.89,128.96,388.88,-0.011851,-1,-1,-1
3,-1,1359.1,413.27,120.26,362.77,2.3387,-1,-1,-1
3,-1,571.03,402.13,104.56,315.68,0.79923,-1,-1,-1
3,-1,1482.5,390.88,128.96,388.88,0.35271,-1,-1,-1
...
600,-1,708.37,476.87,20.435,63.306,-0.1483,-1,-1,-1
600,-1,421.14,446.86,41.871,127.61,-0.19971,-1,-1,-1
600,-1,613.25,412.69,51.78,157.34,-0.38627,-1,-1,-1
600,-1,375.27,454.06,48.246,146.74,-0.42444,-1,-1,-1

从左到右分别代表:

  • frame: 第几帧图片
  • id: 这个检测框分配的id,在这里都是-1代表没有id信息
  • bbox(四位): 分别是左上角坐标和长宽
  • conf:这个bbox包含物体的置信度,可以看到并不是传统意义的0-1,分数越高代表置信度越高
  • MOT3D(x,y,z): 是在MOT3D中使用到的内容,这里关心的是MOT2D,所以都设置为-1

可以看出以上内容主要提供的和目标检测的信息没有区别,所以也在一定程度上可以用于检测器的训练。

  1. gt.txt

这个文件只有train的子文件夹中有,test中没有,其中内容的格式和det.txt有一些类似,部分内容如下:

1,1,912,484,97,109,0,7,1
2,1,912,484,97,109,0,7,1
3,1,912,484,97,109,0,7,1
...
136,1,912,484,97,109,0,7,0.93878
137,1,912,484,97,109,0,7,0.86735
138,1,912,484,97,109,0,7,0.79592
139,1,912,484,97,109,0,7,0.72449
140,1,912,484,97,109,0,7,0.65306
...
338,1,912,484,97,109,0,7,0
339,1,912,484,97,109,0,7,0
340,1,912,484,97,109,0,7,0
341,1,912,484,97,109,0,7,0
...
599,1,912,484,97,109,0,7,1
600,1,912,484,97,109,0,7,1

1,2,1338,418,167,379,1,1,1
2,2,1342,417,168,380,1,1,1
3,2,1346,417,170,380,1,1,1
...

从左到右分别是:

  • frame: 第几帧图片

  • ID:也就是轨迹的ID,可以看出gt里边是按照轨迹的ID号进行排序的

  • bbox: 分别是左上角坐标和长宽

  • 是否忽略:0代表忽略

  • classes:目标的类别个数(这里是驾驶场景包括12个类别),7代表的是静止的人。

    第8个类代表错检,9-11代表被遮挡的类别

  • 最后一个代表目标运动时被其他目标包含、覆盖、边缘裁剪的情况。

总结:

  • train中含有的标注信息主要来自det.txt和gt.txt。test中只含有det.txt。
  • det.txt含有的有用信息有:frame, bbox, conf
  • gt.txt含有的有用信息有:frame,bbox, conf, id, class
  • output.txt(使用deepsort得到的文件)中含有的有用信息有:frame,bbox, id

3. MOT中的评价指标

评价出发点

  • 所有出现的目标都要及时能够找到;
  • 目标位置要尽可能与真实目标位置一致;
  • 每个目标都应该被分配一个独一无二的ID,并且该目标分配的这个ID在整个序列中保持不变。

评价指标数学模型
评价过程的步骤:

  1. 建立 目标与假设最优间的最优一一对应关系,称为correspondence
  2. 对所有的correspondence,计算位置偏移误差
  3. 累积结构误差 a. 计算漏检数 b. 计算虚警数(不存在目标却判断为目标) c. 跟踪目标发生跳变的次数

  1. MOTA(Multiple Object Tracking Accuracy)

M O T A = 1 − ∑ ( F N + F P + I D S

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

*pprp*

如果有帮助可以打赏一杯咖啡

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值