欢迎使用CSDN-markdown编辑器_markdown格式bga召回率-CSDN博客

本文链接：https://blog.csdn.net/gangshou/article/details/50574091

MOTChallenge 2015: Towards a Benchmark for Multi-Target Tracking

阅读笔记

【1】related work

写benchmark的作用与难点：对于现在的方法来说，像PET等数据库已经出现了过拟合现象，即评判方法太简单了。这个benchmark对于向iccv和cvpr等高级会议的使用时存在问题的。

论文中的MOTChallenge benchmark，包括各种各样的视频序列：不同的viewpoint，不同的光照条件，不同的密集程度。也有数据集PETS和KITTI里面的序列。
引用4中提到，集合了42百万的行人轨迹。数据的标注是不可行的，所以他们用了一个密集的照相机组来产生轨迹的ground truth。
本文中没有给出这么多的数据，但是通过泛化测试集，是的集合变得更大。
【evaluation】
如何评判算法的性能，有CLEAR metrics：通过测量标注与运行结果的bounding boxes的交叉度和匹配，来计算准确度和精度。
精度用来测量对行人的定位如何，准确度用来评价出现了多少错误：目标遗失，轨迹漂移，身份。
另一个测量集：
关键参数：判断运行结果与groundtruth的bounding boxes交叉的阈值，大于多少认为是匹配上，小于为错误。
【2】benchmark submission
论文的benchmark包括：数据集评价服务网站用户界面。
【3】datasets
1. 创建一个通用的框架来测试通用算法；
2. 聚集了现有的和新的具有挑战性的视频集，不同的特点：帧速率、光照强度、行人密度和视点等。
2D MOT Sequences
22个序列，一半训练，一半测试。测试集的标注并没有放开，为了防止方法过度拟合（用测试集进行训练）。
序列分类：
静止和移动的摄像头：人，小推车，轿车或固定放置。
视点：高于人的位置，和人一个位置，低于人的位置。
天气：sunny天气可能会有阴影；晚上可能会比较motion 模糊。
把这些序列适当分配到训练集和测试集（图1）。
详细介绍了6个新的视频序列，包括4个摄像头机制，2个移动，和人一个高度。
有3个序列很复杂，1个是在晚上通过移动的摄像头获得的，移动摄像头加上低的光照使得motion非常模糊。2个是室外的高密度人群。（雨天和雾天以后加入）
在这6个序列上，最好的算法的准确度是12.7%。
3D MOT Sequences
行人的3D位置通常是通过使用图片plane和地面plane的单应性将人脚的2D位置投射到3D世界中获得的。不懂。用bounding box的bottom-center作为人脚的位置，这并不精确，bounding box与人的轮廓并不紧紧附着，人的四肢并不对称。很小的2D错误投射到3D可能是很大的错误。只通过bounding box获得3D信息是不好的。
如何从静止和移动摄像头获得3D信息，并且当前的校正和标注对于3D追踪是否是可靠的。移动的摄像头在3D追踪中错误很大。
静止camera序列：
移动camera序列：18作者
Detection：检测行人，用 the recent object detector implementation of Dollar[16], based on aggregated channel features (ACF).
Data Format：图片JPEG（000001.jpg）
检测（detection）和标记（annotation）文件comma-separated value (CSV) files 。每一行表示一个目标实例，每一行有十个数，第一个数表示在第几（这个数）帧出现了目标。第二个数是一个独一无二id，表示目标属于一个轨迹，一个目标只属于一个轨迹（其实这个数也可以理解成独一无二的一个目标），在detection file中设为-1。接下来四个数代表2D图片中行人的bounding box的位置坐标，为bounding box的左上角坐以及宽与高。接下来，第七个为confidence score.在detection文件中表示一个实例是行人的可信度。（若是在ground truth和results文件中，这个数是一个标志，是否这个条目会被考虑，等于0表示在评价时忽略这个特殊的实例（忽略这个目标），等于1表示标记它是active的）。最后三个数（x,y,z）是世界坐标系中行人的3D位置代表人的脚。在2D中这三个可以忽略，设为-1。
每一个序列都要创建一个csv文件起名：Sequence-Name.txt
Expansion through crowdsourcing：这个benchmark在以后可能会每年都会更新，因为要添加新的序列，去除过时的和重复的序列。
【4】Baseline Methods
最近的一些跟踪算法，有公开的code，用同一种方法进行训练（4.1），这里的数据并不一定是这些算法的最好效果。表格3是在其他benchmark上的。【4.1】Training and testing
大部分方法没有公开训练算法来决定特殊数据集的参数模型，这里用非常简单的搜索方案为这些方法找到一个好的数据集。
根据作者的建议默认参数集，p是每种方法的自由参数的个数。在训练集上with不同的参数独立运行100次。每次运行，参数的值在默认值的范围内。最后，经过100次运行参数集合达到最高的MOTA分数（5.2.3）的，作为最佳参数集合，and在测试集上运行一次。这个最佳参数集作为基准方法在这个benchmark website上的描述条目。
【4.2】DP_NMS: Network flow tracking
因为[57]的发表，出现了很多的基于network flow的跟踪方法。将图片建模为图，每个节点代表一个detection，每条边链接两个detection。两个solver：（1）[41]连续最短路劲方法（2）[29]线性规划
【4.3】CEM：Continuous energy minimization
CEM[36]将问题作为一个高位连续能量。基准方法[7]，没有明确的遮挡处理和外观模型。目标状态通过所有帧里连续的（x,y）坐标表示。能量E(x)包括几个部分：一个数据term来保持解决方法接近观察数据，动态模型来平滑轨迹，一个exclusion term防止轨迹碰撞，一个连续的term来降低轨迹的分裂，规则化。这个能量函数是高度非凸的，最小化时要通过一种交互式方式：使用共轭梯度下降和确定性跳跃动作。
【4.4】SMOT：Similar moving objects
The Similar Multi-Object Tracking (SMOT) approach[15]专门针对于目标外观很模糊，且专注于使用动作作为数据关联的主要线索。使用广义线性分配（GLA）将相似运动的轨迹片段链接成长的轨迹。轨迹片段的动作相似和潜在动力被建模为一个线性回归的近似于轨迹的序列。
【4.5】TBD：Tracking-by-detection[21][56]
这个方法是一个大的交通场景理解框架的一部分，并且使用了一个相当简单的数据关联技术。第一步链接在连续帧中外观相似的重叠的detections成为一条轨迹。第二步旨在The second stage aims to bridge occlusions of up to 20 frames.
这种算法没有在训练，用的作者提供的。
【4.6】SFM：Social forces for tracking
大部分跟踪方法都会有一个前提假设：每个目标的运动模型是独立的。但是现实情况中，一个人是要遵循一系列的社会规则的，即根据他周围的其他运动目标，是服从于社会力量的。在[23][26]中定义了什么是social force model（SFM）并且已经应用于人的多目标跟踪了。
【4.7】TC_ODAL：Tracklet confidence
选择作为基准方法中唯一的在线方法。两个步骤，第一：相近的detection链接为一个短的可用的轨迹片段。第二：如果遮挡或丢失，tracklet confidence会降低。
在线外观学习。在最后，confidence高的轨迹片段会被聚集，这时在线使用增量现行判别分析来更新外观模型。
【5】Evaluation
现在多目标跟踪的评价还是有很大的困难。虽然好多方法被提出[12][33] [44][46] [47] [52]，但是在比较新方法和以前的方法时还是不直接明了。这一部分介绍本文benchmark的整个方法的细节。
【5.1】Annotation
这是一个相当乏味的工作。The 6 new sequences (ADL-Rundle-* and Venice-*)were annotated by us using the VATIC annotation tool[49].
【5.1.1】Variation in the annotations
【5.2】Evaluation metrics
两个measures集合，一个由Stiefelhagen提出(CLEAR metric)，一个由Wu and Nevatia提出。
【5.2.1】Track-to-target assignment
跟踪性能的量化有两个通常的前提条件。一：每个假设输出，是true positive（TP，一个真实的（标注出的）目标）还是false positive（FP，假警报），区别两者是通过距离d（5.2.2计算出的）的一个阈值。如果一个目标被任何假设丢失了为false negative（FN）。想要的结果是FP和FN要尽量的少。
一个目标可能会被多个输出发现。二：在计算数量以前，在约束下建立标注和假设目标之间的一致性，约束是：一个真实地目标应该被恢复（重新找到）最多一次，一个假设最多解释一个目标。
接下来，我们假设每个ground truth轨迹只有一个独一无二的开始点和结束点，即不是断裂的。当前的evaluation没有明确的解决目标重定位。也就是说，一个目标在视野中消失然后又重新出现，会被当做一个新出现的目标，分配一个新的ID.
在进行true matches和建立相关性后，可以计算metrics了。
【5.2.2】Distance measure
跟踪假设和真实目标距离多远。我们区分两种情况。Fig10输出与标注可以计算boudingbox的重叠(2D)，也可以计算世界坐标系的欧式距离(3D)。
【5.2.3】Multiple Object Tracking Accuracy
MOTA百分比的范围是负无穷到100。党错误的个数超过场景中所有的目标就会出现负数。
T是帧索引（第几帧），GT是ground truth 目标的数量。
MOTA给出了一个整体性能的很好的指示，但是只用这一个单独的性能测量量是很有争议的。
鲁棒性：编译这个benchmark后的一个动机是使数据尽可能的多样化来降低数据集的偏见。最主要的动机是挑战当今最好的算法并在无约束的环境和未见过的数据下分析他们的性能。实验表明大部分跟踪算法在特定的数据集上会有严重的过度拟合，但是这些算法没有重大的参数调整不足以解决完全不同的设定，甚至在一个模型里也是。
【5.2.4】Multiple Object Tracking Precision
是true positive和他们相对的ground truth目标之间距离的平均值。

Ct是第t帧中匹配的个数，dt,i是目标i和他的ground truth 目标的bounding box重叠率。MOTP给出了假设和ground truth目标的重叠率的均值，范围是50%到100%。
重要的一点，MOTP是定位的精度检测，不要将他和位置预测混淆。
从表格三中，MOTP的值都在69.6%到71.6%之间，并不是差的很明显，是因为MOTP受ground truth的标定和detectiong的影响很大，但是受输出的影响相对较小。
这个测量标准并不好啊。
【5.2.5】Track quality measures
每个ground truth轨迹可以被分成MT（mostly track），PT（partially track），ML（mostly lost）。这样做是基于跟踪算法发现了多少轨迹。如果跟踪了一个目标命周期的80%以上判为MT，少于20%位ML，其他情况判为PT。大量的MT和少许的ML的人们想要的，算两个比率。
在某些情况下，可能有兴趣获得长期连续的无缺口的。。。。
计算跟踪破碎的数量。
【5.2.6】Runtime
Runtime和tracker accuracy关系（fig11）
【5.2.7】Tracker ranking
多个（ten）合理的性能测试，用着十个性能测试的平均值排序，和MOTA的结果相符合。
【6】Conclusion and Future Work