跟踪篇(4)--对于MOT16 Benchmark的理解

最新推荐文章于 2023-05-29 18:18:24 发布

Felaim

最新推荐文章于 2023-05-29 18:18:24 发布

阅读量2.2k

点赞数 1

分类专栏：跟踪文章标签： benchmark 视觉跟踪多目标

本文链接：https://blog.csdn.net/Felaim/article/details/97000018

版权

跟踪专栏收录该内容

10 篇文章 7 订阅

订阅专栏

本文主要是看了这篇论文：MOT16: A Benchmark for Multi-Object Tracking
文章的下载地址为：https://arxiv.org/pdf/1603.00831.pdf
之前介绍的OTB数据集主要是单目标跟踪，而MOT，是Multi-Object Tracking，故名思意，主要是针对多目标跟踪的数据集。

MOT16数据集的介绍

这个数据集总共包括14个序列，不仅仅包括行人，还有交通工具，坐着的人，遮挡目标和其他重要的类别，后续会详细介绍。数据集的下载地址为：https://motchallenge.net/data/MOT16/#download。界面如下图所示：
在这里插入图片描述

大概有1.9G的数据。

在14个视频序列中，又有7个为训练集，7个为测试集，解压后具体分类如下图：
在这里插入图片描述
如果对这些数据集进行部分显示，可以看到论文中的图片：

上图中有两行，第一行为训练集，第二行为测试集，对于每个序列的详细信息如下表所示：

第一个表格为训练集的数据，第二个表格为测试集的数据。可以看到数据集的FPS(即视频的帧率)，Resolution(图片的尺寸)，Length(时间长度)，Tracks(标注轨迹的数量),Boxes(总的标注的行人的数量)，Density(平均每帧的行人数量)，Camera（相机运动情况），Viewpoint(拍摄的视角)，Conditions(天气情况)，Source(视频来源的新旧)。

测试

作者在MOT16上进行了多个目标检测算法，来测试数据的标注框。其中目标检测算法得到的准确率和召回率曲线如下图所示，可以看到DPM v5的算法结果最好，所以作者使用DPM。
注意：R-CNN除了人以外，其他检测效果都比DPM好，但是MOT16主要就是对行人进行检测，所以作者选择DPM.
在这里插入图片描述

下表是使用预训练好的DPM方法检测MOT16数据的具体统计结果，可以看到14个视频序列，nDet.(目标检测的总数)，nDet./fr.(平均每帧目标检测数)，min height(检测出的bounding box的最低的位置），max height(检测出的bounding box的最高的位置）。

在这里插入图片描述

数据的组织形式

所有的视频都是JPEG的图片格式，命名方式为6个数字，如（000001.jpg)。检测和标注的文件都是CSV(comma-separated value，逗号分隔值)文件，每一行都表示一个目标实例信息，每一行包含9个值。
下图为检测文件的数据格式：

在这里插入图片描述
下图为标注文件的数据格式：

在这里插入图片描述
每一行数值的具体含义如下图所示：

LZ来具体说一下：

位置	名字	描述
1	帧的位置	表示目标出现在第几帧
2	ID号码	每个运动轨迹的ID号，在目标检测中为-1
3	边界框的左侧数值	行人边界框左上角的左边的坐标
4	边界框上端数值	行人边界框左上角的上端的坐标
5	边界框的宽度	边界框宽度的像素数
6	边界框的高度	边界框高度的像素数
7	信心值	目标检测表示的信心值（在标注文件中作为flag，0表示在评估时可以忽略，1表示需要计算）
8	标记目标的种类	在标记文件中表示标记目标的种类（在检测文件中为-1）
9	可见性	在标记文件中，数值在0-1之间的数字，表示目标的可见性，产生的原因可能是遮挡或者对图像进行裁剪（在检测文件中为-1）

具体的标记目标的分类，总共有12种，如下所示：
在这里插入图片描述

MOT16数据集的标注规则

在这里插入图片描述
其实，主要分为三大类，上述的表格转换成下图，原文中其实都有：

在实际的评测中只有Target中会计入评估，其他的标注只是为了帮助训练。
所以按照上述的图表，将所有标注的数据分为三类：
1.Target: 移动和站立的行人，包括在自行车或者滑板上的人，假如一个人短暂的弯腰、深蹲，捡东西，或者与小孩子交谈。

2.Ambiguous: 不处于直立状态的人（例如躺着或者坐着的人），或者类似人的目标（例如模特，出现人的图片，玻璃中反射出的人，或者人在玻璃后也属于干扰项），这些都是属于Ambiguous。

3.Other: 所有移动的车辆和非机动车辆，如婴儿车，和其他存在潜在的遮挡关系。这个类比仅作训练使用，因为不算在评价准则中。静态的车辆或者自行车如果没有行人则不包含在这个类别中。

Bounding box标注满足的要求

1.尽可能贴近目标，则行人在运动时边界框的大小时改变的

2.尽可能早开始，尽可能晚结束（10%的行人可见时即被标注）

3.如果消失后重新出现，ID会进行变化。

4.会进行检查

评价方法

1.MOTA:Mutiple Object Tracking Accuracy
在这里插入图片描述
其中 $t$ 表示第 $t$ 帧，GT是groundtruth的数量，FN是false negative,即确实是目标，却被认为不是目标。FP是false true,即原名不是目标却被检测成目标。IDSW是指identity swith是指ID不匹配的错误。