《Deep Learning in Video Multi-Object Tracking: A Survey》 论文链接
近期开始研究多目标追踪,因此先找了一篇比较新的2019年综述性论文入门。
本论文着眼于single-camera videos and 2D data. 将MOT通用算法归纳为4个步骤,并分别介绍了Deep Learning在各步骤中的应用,给出了典型论文以供读者进一步阅读学习。
文章目录
1 Introduction
多目标追踪(MOT, multi-object tracking) 是指输入一段视频,在没有任何对目标的先验知识(外形或数量)的前提下,追踪其中一类或多类物体的运动轨迹。比如常见的行人追踪,车辆追踪。
与 单目标追踪(SOT) 不同,MOT不仅需要输出每一帧中每个目标的bounding box,还需要对每个box标注target ID,以此来区分 intra-class objects.
此外,SOT有对目标外形的先验知识,因为训练集会给出一段视频第一帧的bounding box,而MOT则没有。因此SOT多采用相关滤波的方法,而MOT目前多采用 tracking by detection 的方法(后文详细讲)。
MOT的困难之处在于
- various occlusions 遮挡问题,尤其在拥挤环境中
- interactions between objects 容易导致同类物体的ID标注错误
2 MOT: algorithms, metrics and datasets
2.1 Introduction to MOT algorithms
目前主流的MOT算法是 tracking by detection, 先通过常规目标检测方法提取一系列bounding box,再根据前后帧间的关系,将含有相同目标的bbox分配相同的ID。目前目标检测的质量已经比较好,因此MOT算法常被认为是一种assignment problem,即如何将匹配对应的bbox。
MOT算法可以分为batch和online两类。batch tracking algorithms可以同时利用过去/当前/将来的帧信息来对当前帧进行检测,而online tracking algorithms只能利用过去/当前的帧信息来检测当前帧。
需要特别注意,online不等于real-time,real-time一定是online的,但绝大部分online算法还太慢,不足以支持real-time environment. 尤其是应用了深度学习的算法,往往都计算密集。
主流MOT算法可以被归结为以下4个步骤:
- detection stage: 找到bounding box
- feature extraction/motion prediction stage: 对detection结果区域提取特征; 可选的,motion predictor 预测每个被追踪物体下一帧的位置
- affinity stage: 计算每一对detection之间特征的相似度
- association stage: 根据相似度匹配相同的目标,并标注相同ID
2.2 Metrics
MOT常用评价标准包括metrics defined by Wu and Nevatia, CLEAR MOT metrics, ID metrics三种.
classical metrics
Name | |
---|---|
Mostly Tracked (MT) | 至少80%帧数被正确追踪的目标数量 |
Fragments | (一段真实轨迹可能被多个追踪片段共同组成)至多覆盖真实轨迹80%帧的片段的数量 |
Mostly Lost (ML) | 少于20%帧数被正确追踪的目标数量 |
False trajectories | 不能对应到真实目标的预测轨迹的数量 |
ID switches | 目标被正确追踪,但ID被错误改变的次数 |
CLEAR MOT metrics
通过IoU(和continuity constraint)来进行ground truth和predictions的对应,并计算FP/FN/Fragm/IDSW。其中Fragm是fragments总数量,IDSW是ID switches总数量。
通常使用以下两个评价标准。
M O T A = 1 − F N + F P + I D S W G T ∈ ( − ∞ , 1 ] MOTA=1-\frac{FN+FP+IDSW}{GT} \in(-\infty,1] MOTA=1−GTFN+FP+IDSW∈