1.概述
目标追踪方法按照前深度学习时代和深度学习方法大致分为两个阶段。
从跟踪原理来看,视觉对象跟踪大致可以分为 分为生成跟踪算法和判别跟踪算法等 很多基础概念、模型等背景知识是我们应该知道的 先。本篇介绍了视觉对象中的基本算法和模型追踪。一、相关滤波器的概念及其在视觉对象中的应用 本章表示跟踪,包括三种经典算法 例如 MOSSE、基于判别相关滤波器的跟踪器和内核相关基于过滤器的跟踪器。然后,表示典型的深度学习模型,包括 卷积神经网络、孪生网络、生成对抗网络和 基于强化学习的网络。
2.传统方法
2.1 KF/EKF
2.2 MOSSE
3.深度学习方法
3.1单目标追踪
单目标跟踪领域 在单目标跟踪 (Single Object Tracking, SOT)领域,不得不提经典的 SiameseRPN++ (其有个前身SiameseRPN,这里我们统称SiameseRPN系列) ,也是属于典型的固定跟踪模板的 SOT 算法。该系列算法将用于相似度学习的 Siamese 网络与目标检测领域的 RPN 相结合,利用 RPN 来提升跟踪框的准确性。与检测中的 RPN 稍微不同的是,这里的卷积核其实就是模板的 feature map,将其在搜索图片的 feature map 做卷积操作,用于预测 anchor 的类别(这里只有前景和背景两类)与坐标偏移量。
3.2多目标追踪
多目标跟踪 (MOT)领域,SORT 和 Deep SORT 可以说是非常具有代表性的算法。SORT 是一种在线的多目标跟踪算法,通过 faster-RCNN 检测视频帧中的目标,得到检测框后经线性模型卡尔曼滤波预测它们在下一帧中的位置,然后将位置预测结果与目标检测框通过 IoU 值进行匈牙利匹配,从而获得跟踪框。SORT 只需要对检测器进行训练,推理时由于没有 ReID 部分,也就大大提升了检测速度。这种完全通过位置进行匹配的方式,在高帧率、少遮挡的环境下取得了非常好的效果。在一年后发表的 Deep SORT 沿用了这套范式,但是做出了一些改进:在 association 的时候采取了级联匹配的做法,先通过特征的余弦相似度进行匹配 (ReID),然后通过 IoU 进行匹配,并且使用了很多涨点的 trick,如在未检测到跟踪目标的帧保留跟踪 ID 等。特征相似度的加入与对卡尔曼滤波预测状态通过马氏距离进行评测,使得其在遮挡与长时间跟踪方面有更好的表现。 MMTracking 刚刚合入的 QDtrack 算法,以 quasi-dense 匹配作为核心想法,将检测器提供的所有 proposals 也全部用于匹配(下图绿框),而不是仅用 GT(下图红框),获取了整张图范围内有用的信息量。与此同时,它提出完全通过外观特征相似性进行匹配,取得了很好的效果。在训练的时候, QDTrack 输入相邻 n 帧的两张图片进行 contrastive learning,通过 bi-directional softmax,让待匹配的两组框的匹配结果保持双向一致性。