多目标追踪-2019综述《Deep Learning in Video Multi-Object Tracking: A Survey》-CSDN博客

本文链接：https://blog.csdn.net/qq_41614538/article/details/103307352

《Deep Learning in Video Multi-Object Tracking: A Survey》论文链接

近期开始研究多目标追踪，因此先找了一篇比较新的2019年综述性论文入门。
本论文着眼于single-camera videos and 2D data. 将MOT通用算法归纳为4个步骤，并分别介绍了Deep Learning在各步骤中的应用，给出了典型论文以供读者进一步阅读学习。

1 Introduction

多目标追踪(MOT, multi-object tracking) 是指输入一段视频，在没有任何对目标的先验知识（外形或数量）的前提下，追踪其中一类或多类物体的运动轨迹。比如常见的行人追踪，车辆追踪。

与 单目标追踪(SOT) 不同，MOT不仅需要输出每一帧中每个目标的bounding box，还需要对每个box标注target ID，以此来区分 intra-class objects.
此外，SOT有对目标外形的先验知识，因为训练集会给出一段视频第一帧的bounding box，而MOT则没有。因此SOT多采用相关滤波的方法，而MOT目前多采用 tracking by detection 的方法(后文详细讲)。

MOT的困难之处在于

various occlusions 遮挡问题，尤其在拥挤环境中
interactions between objects 容易导致同类物体的ID标注错误

2 MOT: algorithms, metrics and datasets

2.1 Introduction to MOT algorithms

目前主流的MOT算法是 tracking by detection, 先通过常规目标检测方法提取一系列bounding box，再根据前后帧间的关系，将含有相同目标的bbox分配相同的ID。目前目标检测的质量已经比较好，因此MOT算法常被认为是一种assignment problem，即如何将匹配对应的bbox。

MOT算法可以分为batch和online两类。batch tracking algorithms可以同时利用过去/当前/将来的帧信息来对当前帧进行检测，而online tracking algorithms只能利用过去/当前的帧信息来检测当前帧。

需要特别注意，online不等于real-time，real-time一定是online的，但绝大部分online算法还太慢，不足以支持real-time environment. 尤其是应用了深度学习的算法，往往都计算密集。

主流MOT算法可以被归结为以下4个步骤：

detection stage: 找到bounding box
feature extraction/motion prediction stage: 对detection结果区域提取特征; 可选的，motion predictor 预测每个被追踪物体下一帧的位置
affinity stage: 计算每一对detection之间特征的相似度
association stage: 根据相似度匹配相同的目标，并标注相同ID

2.2 Metrics

MOT常用评价标准包括metrics defined by Wu and Nevatia, CLEAR MOT metrics, ID metrics三种.

classical metrics

Name
Mostly Tracked (MT)	至少80%帧数被正确追踪的目标数量
Fragments	（一段真实轨迹可能被多个追踪片段共同组成）至多覆盖真实轨迹80%帧的片段的数量
Mostly Lost (ML)	少于20%帧数被正确追踪的目标数量
False trajectories	不能对应到真实目标的预测轨迹的数量
ID switches	目标被正确追踪，但ID被错误改变的次数

CLEAR MOT metrics
通过IoU(和continuity constraint)来进行ground truth和predictions的对应，并计算FP/FN/Fragm/IDSW。其中Fragm是fragments总数量，IDSW是ID switches总数量。
通常使用以下两个评价标准。

$MOTA=1-\frac{FN+FP+IDSW}{GT} \in(-\infty,1]$