《Simple Online and Realtime Tracking》SORT论文笔记

最新推荐文章于 2023-01-17 14:39:10 发布

ClarissaYL

最新推荐文章于 2023-01-17 14:39:10 发布

阅读量871

点赞数 1

分类专栏：多目标跟踪文章标签：目标追踪 SORT

本文链接：https://blog.csdn.net/qq_41614538/article/details/103362325

版权

多目标跟踪专栏收录该内容

7 篇文章 4 订阅

订阅专栏

《Simple Online and Realtime Tracking》 2016 IEEE ICIP
source code

摘要：这篇论文探索了一种务实方法来解决MOT问题，主要关注点在高效地frame-to-frame associate objects，使其能支持online、realtime的应用。为达到这个目的，检测质量成为影响tracking效果的关键因素（改变detector可以提高18.9%的tracking效果）。尽管只使用了基础常规技术的结合（Kalman Filter and Hungarian algorithm），这个方法达到了与SOTA online tracker同等精度，且在速度上比其他SOTA tracking快20倍，达到260Hz的更新频率。

关键词：Computer Vision, Multiple Object Tracking, Detection, Data Association

1 Introduction

本论文沿用了tracking-by-detection框架。该框架将MOT问题看作一个data association问题，核心就是将整个视频每一帧中检测出来的物体相互进行匹配。trackers往往会采用多种方式对motion/appearance等特征进行建模，并据此来完成data association.

从上图中可以看出，目前精度较好的模型速度都太慢，不能达到realtime的要求。本论文使用主流传统data association techniques，结合CNN-based detectors，揭示了MOT可以非常简单，以及该方法性能可以达到很好。

本模型遵循最简化设计原则，只考虑最普遍的frame-to-frame association问题，不考虑特殊情况，避免引入复杂性使模型无法realtime。比如：

不考虑长期和短期的遮蔽问题，不考虑re-identification
不考虑对detection errors的修正处理，而是直接用精度更高的CNN-based detector

本模型在tracking中忽视appearance特征，只使用bbox位置和大小来做运动估计和检测框匹配。流程如下图：
在这里插入图片描述

2 Literature Review

传统MOT解决方法，通过改进速度有所提升，但缺点是决策太迟不能用于online tracking

Multiple Hypothesis Tracking (MHT)
An Algorithm for Tracking Multiple Targets 1979 原始算法
Multiple Hypothesis Tracking Revisited 2015 ICCV 改进算法
Joint Probabilistic Data Association (JPDA) filters
Tracking and data association 1987 原始算法
Joint Probabilistic Data Association Revisited 2015 ICCV 改进算法

online tracking常用方法是构造appearance和motion模型，辅助目标匹配。将匹配问题考虑为一对一模型 bipartite graph match，可采用全局优化策略 Hungarian algorithm(匈牙利算法)。这里给出两篇我觉得还不错的匈牙利算法简单讲解，基础匈牙利算法，带权值的匈牙利算法。

2014年PAMI期刊上发表的《3D Traffic Scene Understanding from Movable Platforms》中，将匈牙利算法应用于两阶段 batch tracking. 第一阶段匹配相邻帧detection，第二阶段匹配tracklet(跟踪小片段)连接那些由遮挡导致的破碎轨迹。本文提出的方法受上述方法的启发，不过作者简化为单阶段的匹配使其适用于online。

3 Methodology

3.1 Detection

作者对比了不同detector的表现结果，发现detection表现对整个tracking的效果影响巨大。在测试的三种detector中，Faster R-CNN (backbone VGG16)表现最好。

3.2 Estimation Model

作者将每个目标在帧间的变化建模为匀速直线运动(linear constant velocity model)，独立于其他物体/相机的运动。每个目标维护一个状态 target state:

其中 $u$ 和 $v$ 分别代表目标中心在水平和垂直方向的像素位置，s代表scale，r代表aspect ratio(长宽比)。注意aspect ratio被认为是固定常数，而另外三个值是线性变化的，最后三个符号分别代表速度。

下图阐释了目标状态的更新机制。Kalman filter可以参考讲解1和讲解2入门。讲解1从通俗角度介绍了卡尔曼滤波的意义和计算步骤，讲解2更加细致并辅以数学推理和分析，与本文模型也结合更加紧密，强烈推荐一读。
在这里插入图片描述

3.3 Data Association

正如上图所示，在将detection和estimated bbox进行匹配时，IOU被作为距离度量（设定阈值 $IOU_{min}$ ，低于该阈值的IOU放弃匹配），构造assignment cost matrix。这个匹配问题用带权值的匈牙利算法解决。

作者发现使用IOU作为度量准则可以隐性解决短期遮挡问题。当目标A被目标B遮挡时，只有B能够被匹配到，因为IoU距离倾向于选择相似大小的bbox；被遮挡的物体A不做匹配。

3.4 Creation and Deletion of Track Identities

当物体进入和离开图像时，相应的identities需要被对应创建或销毁。

creation

当一个detection与所有estimated bbox的IOU都低于 $IOU_{min}$ 时，标志着新目标的出现
为该目标初始化target state，使用detection bbox的几何信息，并将速度初始化为0，卡尔曼滤波的协方差初始化为一个很大的值。
这个新的目标将进入一段probationary period，即一段密切观察期/试用期，这段期间目标需要被成功匹配到detection，积累足够的置信度，以避免追踪false positive.

deletion

如果在 $T_{Lost}$ 帧数内某个target都不能匹配到detection，标志着这个target的消亡。
在本论文的实验中， $T_{Lost}$ 都被设置为1. 因为采用的匀速模型是一个非常粗略的估计，而且本文不考虑re-identification问题，如果一个目标重新出现，它将被初始化为一个新的identity.

4 Experiments

在这里插入图片描述

SORT在online tracker中达到最高的MOTA，且丢失的目标(ML)最少
ID switch和Fragmentation的问题没有被SORT算法所考虑，因此表现较差
SORT速度很快，在single core of an Intel i7 2.5GHz machine with 16 GB memory上可达到260Hz，同时维持了很高的精度。这是其它算法无法匹敌的。

5 Conclusion

SORT模型更关注frame-to-frame prediction and association. 它在速度和精度上都达到了最优，而其它模型往往牺牲其一。SORT适合作为baseline，期望未来有新的方法可以解决SORT所没有关注的re-identification.
揭示了detection质量对tracking质量影响甚大。

ClarissaYL

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
《Simple Online and Realtime Tracking》SORT论文笔记

《Simple Online and Realtime Tracking》 2016 IEEE ICIPsource code摘要：这篇论文探索了一种务实方法来解决MOT问题，主要关注点在高效地frame-to-frame associate objects，使其能支持online、realtime的应用。为达到这个目的，检测质量成为影响tracking效果的关键因素（改变detector可...
复制链接

扫一扫

专栏目录