《Simple Online and Realtime Tracking》 2016 IEEE ICIP
source code
摘要:这篇论文探索了一种务实方法来解决MOT问题,主要关注点在高效地frame-to-frame associate objects,使其能支持online、realtime的应用。为达到这个目的,检测质量成为影响tracking效果的关键因素(改变detector可以提高18.9%的tracking效果)。尽管只使用了基础常规技术的结合(Kalman Filter and Hungarian algorithm),这个方法达到了与SOTA online tracker同等精度,且在速度上比其他SOTA tracking快20倍,达到260Hz的更新频率。
关键词:Computer Vision, Multiple Object Tracking, Detection, Data Association
文章目录
1 Introduction
本论文沿用了tracking-by-detection框架。该框架将MOT问题看作一个data association问题,核心就是将整个视频每一帧中检测出来的物体相互进行匹配。trackers往往会采用多种方式对motion/appearance等特征进行建模,并据此来完成data association.
本模型遵循最简化设计原则,只考虑最普遍的frame-to-frame association问题,不考虑特殊情况,避免引入复杂性使模型无法realtime。比如:
- 不考虑长期和短期的遮蔽问题,不考虑re-identification
- 不考虑对detection errors的修正处理,而是直接用精度更高的CNN-based detector
本模型在tracking中忽视appearance特征,只使用bbox位置和大小来做运动估计和检测框匹配。流程如下图:
2 Literature Review
传统MOT解决方法,通过改进速度有所提升,但缺点是决策太迟不能用于online tracking
- Multiple Hypothesis Tracking (MHT)
An Algorithm for Tracking Multiple Targets 1979 原始算法
Multiple Hypothesis Tracking Revisited 2015 ICCV 改进算法 - Joint Probabilistic Data Association (JPDA) filters
Tracking and data association 1987 原始算法
Joint Probabilistic Data Association Revisited 2015 ICCV 改进算法
online tracking常用方法是构造appearance和motion模型,辅助目标匹配。将匹配问题考虑为一对一模型 bipartite graph match,可采用全局优化策略 Hungarian algorithm(匈牙利算法)。这里给出两篇我觉得还不错的匈牙利算法简单讲解,基础匈牙利算法,带权值的匈牙利算法。
2014年PAMI期刊上发表的《3D Traffic Scene Understanding from Movable Platforms》中,将匈牙利算法应用于两阶段 batch tracking. 第一阶段匹配相邻帧detection,第二阶段匹配tracklet(跟踪小片段)连接那些由遮挡导致的破碎轨迹。本文提出的方法受上述方法的启发,不过作者简化为单阶段的匹配使其适用于online。
3 Methodology
3.1 Detection
作者对比了不同detector的表现结果,发现detection表现对整个tracking的效果影响巨大。在测试的三种detector中,Faster R-CNN (backbone VGG16)表现最好。
3.2 Estimation Model
作者将每个目标在帧间的变化建模为匀速直线运动(linear constant velocity model),独立于其他物体/相机的运动。每个目标维护一个状态 target state:
其中
u
u
u和
v
v
v分别代表目标中心在水平和垂直方向的像素位置,s代表scale,r代表aspect ratio(长宽比)。注意aspect ratio被认为是固定常数,而另外三个值是线性变化的,最后三个符号分别代表速度。
下图阐释了目标状态的更新机制。Kalman filter可以参考讲解1和讲解2入门。讲解1从通俗角度介绍了卡尔曼滤波的意义和计算步骤,讲解2更加细致并辅以数学推理和分析,与本文模型也结合更加紧密,强烈推荐一读。
3.3 Data Association
正如上图所示,在将detection和estimated bbox进行匹配时,IOU被作为距离度量(设定阈值 I O U m i n IOU_{min} IOUmin,低于该阈值的IOU放弃匹配),构造assignment cost matrix。这个匹配问题用带权值的匈牙利算法解决。
作者发现使用IOU作为度量准则可以隐性解决短期遮挡问题。当目标A被目标B遮挡时,只有B能够被匹配到,因为IoU距离倾向于选择相似大小的bbox;被遮挡的物体A不做匹配。
3.4 Creation and Deletion of Track Identities
当物体进入和离开图像时,相应的identities需要被对应创建或销毁。
creation
- 当一个detection与所有estimated bbox的IOU都低于 I O U m i n IOU_{min} IOUmin时,标志着新目标的出现
- 为该目标初始化target state,使用detection bbox的几何信息,并将速度初始化为0,卡尔曼滤波的协方差初始化为一个很大的值。
- 这个新的目标将进入一段probationary period,即一段密切观察期/试用期,这段期间目标需要被成功匹配到detection,积累足够的置信度,以避免追踪false positive.
deletion
- 如果在 T L o s t T_{Lost} TLost帧数内某个target都不能匹配到detection,标志着这个target的消亡。
- 在本论文的实验中, T L o s t T_{Lost} TLost都被设置为1. 因为采用的匀速模型是一个非常粗略的估计,而且本文不考虑re-identification问题,如果一个目标重新出现,它将被初始化为一个新的identity.
4 Experiments
- SORT在online tracker中达到最高的MOTA,且丢失的目标(ML)最少
- ID switch和Fragmentation的问题没有被SORT算法所考虑,因此表现较差
- SORT速度很快,在single core of an Intel i7 2.5GHz machine with 16 GB memory上可达到260Hz,同时维持了很高的精度。这是其它算法无法匹敌的。
5 Conclusion
- SORT模型更关注frame-to-frame prediction and association. 它在速度和精度上都达到了最优,而其它模型往往牺牲其一。SORT适合作为baseline,期望未来有新的方法可以解决SORT所没有关注的re-identification.
- 揭示了detection质量对tracking质量影响甚大。