多目标跟踪中经典的MOT16数据集和评价指标

最新推荐文章于 2024-08-24 21:18:07 发布

*pprp*

最新推荐文章于 2024-08-24 21:18:07 发布

阅读量2.7k

点赞数 2

分类专栏：深度学习工具文章标签：深度学习

原创文章不要私自转载，自私转载必究责任，如需转载请联系wx:topeijie商谈

本文链接：https://blog.csdn.net/DD_PP_JJ/article/details/104490867

版权

最近要做一个有关多目标跟踪的项目，刚刚接触MOT，所以先来了解一下MOT16这个比较经典的数据集以及比较经典的评价标准。

1. 多目标跟踪

多目标跟踪处理的对象是视频，从视频的第一帧到最后一帧，里边有多个目标在不断运动。多目标跟踪的目的就是将每个目标和其他目标进行区分开来，具体方法是给每个目标分配一个ID，并记录他们的轨迹。

已开始接触，可能觉得直接将目标检测的算法应用在视频的每一帧就可以完成这个任务了。实际上，目标检测的效果是很不稳定的，其实最大的区别在于，仅仅使用目标检测无法给对象分配ID，并且跟踪能够优化整个跟踪过程，能让目标框更加稳定。

多目标跟踪中一个比较经典的和深度学习结合比较好的方法就是Detection Based Tracking，对前后两帧进行目标检测检测，然后根据得到的前后两帧的所有目标进行匹配，从而维持ID。初学者接触比较多的就是SORT和Deep SORT算法了。

2. MOT16数据集

MOT16数据集是在2016年提出来的用于衡量多目标跟踪检测和跟踪方法标准的数据集，专门用于行人跟踪。官网地址是：https://motchallenge.net/

从官网下载的数据是按照以下的文件结构进行组织的：

- MOT16
	- train
		- MOT16-02
			- det
				- det.txt
			- gt
				- gt.txt
			- img1
			- seqinfo.init
		- MOT16-04
		- MOT16-05
		- MOT16-09
		- MOT16-10
		- MOT16-11
		- MOT16-13
	- test
		- MOT16-01
			- det
				- det.txt
			- img1
			- seqinfo.ini
		- MOT16-03
		- MOT16-06
		- MOT16-07
		- MOT16-08
		- MOT16-12
		- MOT16-14

在MOT16数据集中，是包含了检测得到的框的，这样是可以免去目标检测这个部分，提供统一的目标检测框以后，然后可以比较目标跟踪更关注的部分，而不用在花费精力在目标检测上。

seqinfo.ini

在每个子文件夹中都有这个，主要用于说明这个文件的一些信息，比如长度，帧率，图片的长和宽，图片的后缀名。

[Sequence]
name=MOT16-09
imDir=img1
frameRate=30
seqLength=525
imWidth=1920
imHeight=1080
imExt=.jpg

det.txt

这个文件中存储了图片的检测框的信息(检测得到的信息文件)，部分内容展示如下：

1,-1,1359.1,413.27,120.26,362.77,2.3092,-1,-1,-1
1,-1,571.03,402.13,104.56,315.68,1.5028,-1,-1,-1
1,-1,650.8,455.86,63.98,193.94,0.33276,-1,-1,-1
1,-1,721.23,446.86,41.871,127.61,0.27401,-1,-1,-1
2,-1,460.48,442.1,90.896,274.69,0.26749,-1,-1,-1
2,-1,643.66,461.78,59.629,180.89,0.18023,-1,-1,-1
2,-1,1494.4,408.29,112.14,338.41,0.16075,-1,-1,-1
2,-1,572.83,364.89,128.96,388.88,-0.011851,-1,-1,-1
3,-1,1359.1,413.27,120.26,362.77,2.3387,-1,-1,-1
3,-1,571.03,402.13,104.56,315.68,0.79923,-1,-1,-1
3,-1,1482.5,390.88,128.96,388.88,0.35271,-1,-1,-1
...
600,-1,708.37,476.87,20.435,63.306,-0.1483,-1,-1,-1
600,-1,421.14,446.86,41.871,127.61,-0.19971,-1,-1,-1
600,-1,613.25,412.69,51.78,157.34,-0.38627,-1,-1,-1
600,-1,375.27,454.06,48.246,146.74,-0.42444,-1,-1,-1

从左到右分别代表：

frame: 第几帧图片
id: 这个检测框分配的id，在这里都是-1代表没有id信息
bbox(四位): 分别是左上角坐标和长宽
conf：这个bbox包含物体的置信度，可以看到并不是传统意义的0-1，分数越高代表置信度越高
MOT3D(x,y,z): 是在MOT3D中使用到的内容，这里关心的是MOT2D，所以都设置为-1

可以看出以上内容主要提供的和目标检测的信息没有区别，所以也在一定程度上可以用于检测器的训练。

gt.txt

这个文件只有train的子文件夹中有，test中没有，其中内容的格式和det.txt有一些类似，部分内容如下：

1,1,912,484,97,109,0,7,1
2,1,912,484,97,109,0,7,1
3,1,912,484,97,109,0,7,1
...
136,1,912,484,97,109,0,7,0.93878
137,1,912,484,97,109,0,7,0.86735
138,1,912,484,97,109,0,7,0.79592
139,1,912,484,97,109,0,7,0.72449
140,1,912,484,97,109,0,7,0.65306
...
338,1,912,484,97,109,0,7,0
339,1,912,484,97,109,0,7,0
340,1,912,484,97,109,0,7,0
341,1,912,484,97,109,0,7,0
...
599,1,912,484,97,109,0,7,1
600,1,912,484,97,109,0,7,1

1,2,1338,418,167,379,1,1,1
2,2,1342,417,168,380,1,1,1
3,2,1346,417,170,380,1,1,1
...

从左到右分别是：