《Simple Online and Realtime Tracking》SORT论文笔记


《Simple Online and Realtime Tracking》 2016 IEEE ICIP
source code

摘要:这篇论文探索了一种务实方法来解决MOT问题,主要关注点在高效地frame-to-frame associate objects,使其能支持onlinerealtime的应用。为达到这个目的,检测质量成为影响tracking效果的关键因素(改变detector可以提高18.9%的tracking效果)。尽管只使用了基础常规技术的结合(Kalman Filter and Hungarian algorithm),这个方法达到了与SOTA online tracker同等精度,且在速度上比其他SOTA tracking快20倍,达到260Hz的更新频率。

关键词:Computer Vision, Multiple Object Tracking, Detection, Data Association


1 Introduction

本论文沿用了tracking-by-detection框架。该框架将MOT问题看作一个data association问题,核心就是将整个视频每一帧中检测出来的物体相互进行匹配。trackers往往会采用多种方式对motion/appearance等特征进行建模,并据此来完成data association.

从上图中可以看出,目前精度较好的模型速度都太慢,不能达到realtime的要求。本论文使用主流传统data association techniques,结合CNN-based detectors,揭示了MOT可以非常简单,以及该方法性能可以达到很好。

本模型遵循最简化设计原则,只考虑最普遍的frame-to-frame association问题,不考虑特殊情况,避免引入复杂性使模型无法realtime。比如:

  • 不考虑长期和短期的遮蔽问题,不考虑re-identification
  • 不考虑对detection errors的修正处理,而是直接用精度更高的CNN-based detector

本模型在tracking中忽视appearance特征,只使用bbox位置和大小来做运动估计和检测框匹配。流程如下图:
在这里插入图片描述

2 Literature Review

传统MOT解决方法,通过改进速度有所提升,但缺点是决策太迟不能用于online tracking

online tracking常用方法是构造appearance和motion模型,辅助目标匹配。将匹配问题考虑为一对一模型 bipartite graph match,可采用全局优化策略 Hungarian algorithm(匈牙利算法)。这里给出两篇我觉得还不错的匈牙利算法简单讲解,基础匈牙利算法带权值的匈牙利算法

2014年PAMI期刊上发表的《3D Traffic Scene Understanding from Movable Platforms》中,将匈牙利算法应用于两阶段 batch tracking. 第一阶段匹配相邻帧detection,第二阶段匹配tracklet(跟踪小片段)连接那些由遮挡导致的破碎轨迹。本文提出的方法受上述方法的启发,不过作者简化为单阶段的匹配使其适用于online。

3 Methodology

3.1 Detection

作者对比了不同detector的表现结果,发现detection表现对整个tracking的效果影响巨大。在测试的三种detector中,Faster R-CNN (backbone VGG16)表现最好。

3.2 Estimation Model

作者将每个目标在帧间的变化建模为匀速直线运动(linear constant velocity model),独立于其他物体/相机的运动。每个目标维护一个状态 target state:

其中 u u u v v v分别代表目标中心在水平和垂直方向的像素位置,s代表scale,r代表aspect ratio(长宽比)。注意aspect ratio被认为是固定常数,而另外三个值是线性变化的,最后三个符号分别代表速度。

下图阐释了目标状态的更新机制。Kalman filter可以参考讲解1讲解2入门。讲解1从通俗角度介绍了卡尔曼滤波的意义和计算步骤,讲解2更加细致并辅以数学推理和分析,与本文模型也结合更加紧密,强烈推荐一读。
在这里插入图片描述

3.3 Data Association

正如上图所示,在将detection和estimated bbox进行匹配时,IOU被作为距离度量(设定阈值 I O U m i n IOU_{min} IOUmin,低于该阈值的IOU放弃匹配),构造assignment cost matrix。这个匹配问题用带权值的匈牙利算法解决。

作者发现使用IOU作为度量准则可以隐性解决短期遮挡问题。当目标A被目标B遮挡时,只有B能够被匹配到,因为IoU距离倾向于选择相似大小的bbox;被遮挡的物体A不做匹配。

3.4 Creation and Deletion of Track Identities

当物体进入和离开图像时,相应的identities需要被对应创建或销毁。

creation

  • 当一个detection与所有estimated bbox的IOU都低于 I O U m i n IOU_{min} IOUmin时,标志着新目标的出现
  • 为该目标初始化target state,使用detection bbox的几何信息,并将速度初始化为0,卡尔曼滤波的协方差初始化为一个很大的值。
  • 这个新的目标将进入一段probationary period,即一段密切观察期/试用期,这段期间目标需要被成功匹配到detection,积累足够的置信度,以避免追踪false positive.

deletion

  • 如果在 T L o s t T_{Lost} TLost帧数内某个target都不能匹配到detection,标志着这个target的消亡。
  • 在本论文的实验中, T L o s t T_{Lost} TLost都被设置为1. 因为采用的匀速模型是一个非常粗略的估计,而且本文不考虑re-identification问题,如果一个目标重新出现,它将被初始化为一个新的identity.

4 Experiments

在这里插入图片描述

  • SORT在online tracker中达到最高的MOTA,且丢失的目标(ML)最少
  • ID switch和Fragmentation的问题没有被SORT算法所考虑,因此表现较差
  • SORT速度很快,在single core of an Intel i7 2.5GHz machine with 16 GB memory上可达到260Hz,同时维持了很高的精度。这是其它算法无法匹敌的。

5 Conclusion

  • SORT模型更关注frame-to-frame prediction and association. 它在速度和精度上都达到了最优,而其它模型往往牺牲其一。SORT适合作为baseline,期望未来有新的方法可以解决SORT所没有关注的re-identification.
  • 揭示了detection质量对tracking质量影响甚大。
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值