目标跟踪经典论文
相对于目标检测,目标跟踪需要在单帧检测出物体后,跨帧的对物体进行跟踪。SOT往往使用孪生网络,并配上不同的特征提取CNN架构,来持续跟踪样本。而多目标跟踪MOT除了需要检测出物体外,还需要给每个物体Re-ID,然后跨帧的跟踪物体,保证同一个物体能够持续被检测到且持续持有相同的Re-ID。所以多目标跟踪MOT主要可以分为三步:单帧检测-单帧ReID-跨帧跟踪(KF和匈牙利算法)。
单目标跟踪 - 全卷积孪生网络 SiamFC
提出了一个端到端的全卷积孪生网路,基本思想就是提供一个模板
z
z
z,以及一个图像
x
x
x,两者都通过
φ
\varphi
φ(也就是AlexNet)初步进行特征提取,然后以
z
z
z作为卷积核,对
x
x
x进行卷积运算,得到一张score map。SiamFC 的优点是以很简单的网络结构实现了很好的实时性和检测效果。
多目标跟踪 - 实时在线跟踪 SORT
非常novel的提了使用卡尔曼滤波(预测bounding_box)和匈牙利算法(box的匹配程度判断),用简单的两个trick解决了数据关联的问题,实现了快速的多目标跟踪。SORT的检测部分使用的是Faster Region CNN(FrRCNN)。
多目标跟踪 - 使用深度关联度量的SORT DeepSORT
主要为了解决SORT中因为使用卡尔曼滤波存在大量ID切换的问题,DeepSORT使用一个简单的CNN来提取box中的外观特征,每次检测-跟踪后都进行一次feature提取并保存,使得匹配步骤可以使用KF的motion信息,以及CNN的外观信息。除此之外,增加Confirmed状态,并把Matching cascade(而不是IOU Match)作为匹配中的主要筛选器,从而减少Re-ID的数量。
多目标跟踪 - 联合检测-嵌入的模型 JDE
以往的MOT方法将检测和嵌入步骤分离开,但其实可以通过一个结构完成这两步,从而减少计算量。作者使用了类似于YOLO V3(anchor-based)的网络结构,使用FPN从3个尺度进行采样预测得到prediction head,然后使用三个任务分别完成检测(box 预测,box回归)和嵌入(embedding)工作。最后再用卡尔曼滤波和匈牙利算法实现跟踪。
多目标跟踪 - 公平MOT FairMOT
FairMOT对JDE等anchor-based的方法进行了反思,认为在anchor、feature-fusion和Re-ID特征维度都有unfair的地方,并使用了基于encoder-decoder的DLA网络(anchor free的,基于关键点检测的方法)进行特征提取和多层融合,输出四个分支(三个用于检测,一个用于embedding)。在获取了物体的检测位置和Re-ID信息后,配合卡尔曼滤波求解其代价矩阵(cost matrix),以及用匈牙利算法进行匹配