【论文翻译】SORT：SIMPLE ONLINE AND REALTIME TRACKING

最新推荐文章于 2023-05-07 11:43:14 发布

kendyChina

最新推荐文章于 2023-05-07 11:43:14 发布

阅读量2.3k

点赞数 3

分类专栏：深度学习跟踪算法

原文链接：https://arxiv.org/pdf/1602.00763.pdf

版权

深度学习同时被 2 个专栏收录

18 篇文章 2 订阅

订阅专栏

跟踪算法

3 篇文章 0 订阅

订阅专栏

SIMPLE ONLINE AND REALTIME TRACKING

Alex Bewley†, Zongyuan Ge†, Lionel Ott⋄, Fabio Ramos⋄, Ben Upcroft†
Queensland University of Technology†, University of Sydney⋄

论文： https://arxiv.org/abs/1602.00763
代码： https://github.com/abewley/sort

ABSTRACT

本文探讨了一种实用的多对象跟踪方法，其主要重点是为在线和实时应用有效地关联（associate）对象。为此，检测质量是影响跟踪性能的关键因素，更改检测器可以将跟踪质量提高多达18.9％。尽管仅对跟踪组件使用了诸如卡尔曼滤波（Kalman Filter）和匈牙利算法（Hungarian algorithm）之类的熟悉的技术的基本组合，但该方法仍可达到与SOTA（state-of-the-art）在线跟踪器相当的精度。此外，由于我们跟踪方法的简便性，该跟踪器的更新频率为260 Hz，比其他最新的跟踪器快20倍以上。

索引词 - 计算机视觉，多对象跟踪，检测，数据关联

1. INTRODUCTION

本文针对多对象跟踪（MOT）问题提出了一种基于检测的跟踪（tracking-by-detection）框架的实现方式，在该问题中，每帧都检测到多个对象并将其表示为边界框（Bounding Box）。与许多基于批处理（batch based）的跟踪方法[1、2、3]相比，这项工作主要针对在线跟踪（online tracking），即仅基于历史帧和当前帧的检测结果来进行跟踪。另外，重点是在效率上，这可以促进实时跟踪并促进诸如自动驾驶汽车的行人跟踪之类的应用中的更大作用。

MOT问题可以看作是数据关联问题（association problem），其目的是将视频序列中不同帧的检测关联起来。为了帮助数据关联过程，跟踪器使用各种方法来建模场景中对象的运动[1，4]和外观[5，3]。本文采用的方法是通过对最近建立的视觉MOT 基准（benchmark）进行观察获得灵感的[6]。首先，出现了成熟的数据关联技术，其中包括多重假设跟踪（Multiple Hypothesis Tracking）（MHT）[7，3]和联合概率数据协会（Joint Probabilistic Data Association）（JPDA）[2]，它们占据了MOT基准的许多最高位置。其次，唯一不使用聚合信道滤波器（Aggregate Channel Filter）（ACF）检测器的跟踪器也是排名最高的跟踪器，这表明检测质量可能会阻碍其他跟踪器。此外，精度和速度之间的权衡似乎非常明显，因为对于实时应用而言，最精确的跟踪器的速度被认为太慢了（见图1）。随着顶级在线和批处理跟踪器之间传统数据关联技术的兴起，以及顶级跟踪器使用的不同检测方法的使用，这项工作探索了MOT可以多么简单及其性能可以多么强大。

在这里插入图片描述
与Occam的Razor保持一致，跟踪时会忽略检测目标的外观特征，并且仅将边界框的位置和大小用于运动估计和数据关联。此外，关于短期和长期遮挡（occlusion）的问题也很少被忽略，因为它们很少发生，并且对它们的显式处理会将不良的复杂性引入跟踪框架中。因此我们认为，以对象重新识别的形式合并复杂性会增加跟踪框架的大量开销，这可能会限制其在实时应用程序中的使用。

这种设计原理与许多提议的视觉跟踪器形成了鲜明的对比，那些视觉跟踪器结合了无数组件来处理各种边缘情况和检测错误[9、10、11、12]。相反，我们这项工作着重于有效且可靠地处理常见的帧间关联。相比于专注鲁棒性的检测错误，我们选择利用目标检测的最新进展直接解决检测问题。通过将常见的ACF行人检测器[8]与最近基于卷积神经网络（CNN）的检测器[13]进行比较，可以证明这一点。另外，采用了两种经典而又极为有效的方法，即卡尔曼滤波器[14]和匈牙利算法[15]来分别处理跟踪问题的运动预测和数据关联问题。跟踪的这种简化形式促进了在线跟踪的效率和可靠性，请参见图1。在本文中，此方法仅适用于跟踪各种环境中的行人，但是由于基于CNN的检测器的灵活性[13]，因此很自然可以推广到跟踪其他类型的对象。

本文的主要贡献是：

我们利用基于CNN的检测能力解决MOT场景问题；
提出了基于卡尔曼滤波器和匈牙利算法的实用跟踪方法，并在最新的MOT基准上进行了评估；
代码将开源，以帮助建立用于研究实验和避免碰撞应用的基线方法。

本文的组织如下：第2节简要介绍了多目标跟踪领域的相关文献。第3节介绍了我们的精简的跟踪框架，然后在第4节中证明了该框架对标准基准序列的有效性。最后，第5节提供了学习成果的摘要并讨论了未来的改进。

2. LITERATURE REVIEW

传统上，使用多重假设跟踪（MHT）[7]或联合概率数据协会（JPDA）过滤器[16，2]解决了MOT，但这在对象分配不确定的情况下，会延迟做出困难的决策。这些方法的组合复杂度在被跟踪对象的数量上呈指数级增长，这使得它们在高度动态环境的实时应用中不切实际。最近，Rezatofighi等人。 [2]重新探讨了视觉MOT中的JPDA公式[16]，其目标是通过利用解决整数程序的最新进展来解决JPDA的有效近似问题。同样，Kim等。 [3]为每个目标使用了外观模型来修剪MHT图，以实现最新的性能。但是，这些方法仍会延迟决策，因此不适合进行在线跟踪。

许多在线跟踪方法旨在通过在线学习（online learning）建立单个对象本身的外观模型（appearance models）[17、18、12]或全局模型（global model）[19、11、4、5]。除外观模型外，还经常合并运动以协助将检测与 tracklets 相关联[1、19、4、11]。 当仅考虑建模为二部图匹配（bipartite graph matching）的一对一对应关系时，可以使用诸如匈牙利算法[15]之类的全局最优解[10，20]。

Geiger等人的方法[20]在两个阶段中使用匈牙利算法[15]。首先，通过将相邻帧之间的检测相关联来形成小轨迹，在该相邻帧中，将几何形状和外观提示结合在一起以形成亲和力矩阵（affinity matrix）。然后，再次使用几何和外观提示，将小轨迹彼此关联以桥接由遮挡引起的折断的轨迹。 这种两步关联方法将限制于无法批处理计算。我们的方法受到[20]的跟踪组件的启发，但是我们将关联简化单个阶段，基本描述如下一节所述。

3. METHODOLOGY

所提出的方法包含：目标检测，将对象状态传播到未来帧，将当前检测对象与现有对象相关联，以及管理跟踪对象的寿命。

3.1. Detection

为了利用快速发展的基于CNN的检测技术，我们利用了Faster Region CNN（FrRCNN）检测框架[13]。 FrRCNN是一个包含两个阶段的端到端框架。第一阶段提取特征并为第二阶段提出区域（regions），然后在提出的区域中分类出目标。该框架的优势在于，两个阶段之间共享参数，从而创建了一个有效的检测框架。此外，网络架构本身可以交换为任何设计，从而可以对不同的架构进行快速试验以提高检测性能。

在这里，我们比较了FrRCNN提供的两种网络体系结构，即Zeiler、Fergus的体系结构（FrRCNN（ZF））[21]和更深层次的Simonyan、Zisserman的体系结构（FrRCNN（VGG16））[22]。在整个工作过程中，我们将FrRCNN应用于为PASCAL VOC挑战学习的默认参数。由于我们仅对行人感兴趣，因此我们忽略了所有其他类别，仅将输出概率大于50％的人检测结果传递给跟踪框架。

在这里插入图片描述

在我们的实验中，我们发现在将FrRCNN检测与ACF检测进行比较时，检测质量对跟踪性能有重大影响，作用于现有的在线跟踪器MDP [12]和本文提出的跟踪器的序列验证集可以证明这一点。表1显示，对于MDP和本文的方法，最佳检测器（FrRCNN（VGG16））展示了最佳的跟踪精度。

3.2. Estimation Model

在这里，我们描述了对象模型，即用于将目标的身份传播到下一帧的表示形式和运动模型。我们使用线性恒速模型（linear constant velocity model）来估计每个对象的帧间位移，该模型与其他对象和相机运动无关。每个目标的状态建模为：

$\mathbf{x}=[u, v, s, r, \dot{u}, \dot{v}, \dot{s}]^{T}$

其中 $u$ 和 $v$ 分别代表目标中心的水平和垂直坐标，而比例 $s$ 和 $r$ 分别代表目标边框的尺寸和长宽比。注意，纵横比被认为是恒定的。 当检测与目标相关联时，检测到的边界框将用于更新目标状态，在该状态下通过卡尔曼滤波器框架对速度分量进行最佳求解[14]。 如果没有检测与目标相关联，则无需进行校正，直接使用线性速度模型即可简单预测其状态。

前4个变量是跟踪前的状态量，分别是Bounding Box中心的横、纵坐标、尺寸、长宽比。后3个变量（头上有个点）是卡尔曼滤波基于线性速度模型预测的状态量。因 r 并不在预测的状态中，因此说明纵横比是恒定的。

3.3. Data Association

在将检测分配（assign）给现有目标时，通过预测其在当前帧中的新位置来估计每个目标的边界框几何形状。然后，通过分配成本矩阵（assignment cost matrix）计算每个检测目标与现有目标的所有边界框之间的交并比（IOU）距离（IOU distance）。 使用匈牙利算法可以最佳解决分配问题。另外，如果目标重叠检测小于 $IOU_{min}$ ，则将施加最低IOU来拒绝分配。

我们发现边界框的IOU距离隐式处理了目标引起的短期遮挡。具体来说，当目标被遮挡物覆盖时，由于IOU距离适当地有利于具有类似尺寸的检测，因此仅检测到遮挡物。这允许通过检测对两个遮挡目标进行校正，而被覆盖的目标未被分配也不受影响。

简单来说就是使用IOU来计算cost矩阵，是能隐式地缓解遮挡问题的。在遮挡过程中仅检测到前方的遮挡物，无法检测到后方被遮挡的目标，而大小相近的物体间的IOU是较大的，那么可以把遮挡物和原目标进行关联，在遮挡结束后再恢复正确的关联。

3.4. Creation and Deletion of Track Identities

当对象进入和离开图像时，需要相应地创建或销毁唯一标识。对于创建跟踪器，我们认为任何重叠小于 $IOU_{min}$ 的检测结果都表示未被跟踪的对象。使用速度设置为零的边界框来初始化跟踪器。 由于此时未观察到速度，因此将速度分量的协方差初始化为较大的值，从而反映出这种不确定性。此外，新的跟踪器会经历一个试用期，在此期间，目标需要与检测相关联足够多次，以积累足够的证据预防假阳性的检测结果。

如果有 $T_{Lost}$ 帧未检测到目标，则将终止对他的跟踪。这可以防止在没有检测器校正的情况下，由于长时间的预测而导致的跟踪器数量的无限增长和定位错误。在所有实验中，出于两个原因，将 $T_{Lost}$ 设置为1。首先，等速模型不能很好地预测真实的动力学，其次，我们主要关注帧到帧的跟踪，而对象的重新识别超出了本文的范围。此外，及早删除丢失的目标有助于提高效率。如果对象再次出现，将以新的身份对他跟踪。

4. EXPERIMENTS

我们根据MOT基准数据库[6]设置的各种测试序列集评估跟踪器的性能，该数据库包含移动摄像机和静态摄像机序列。为了调整初始卡尔曼滤波器的协方差， $IOU_{min}$ 和 $T_{Lost}$ ，我们使用与[12]中相同的训练集、验证集拆分方式。使用的检测架构是FrRCNN（VGG16）[22]。 [22]中检测器的源代码和样本可以在线获取。

4.1. Metrics

由于很难使用单一的评分来评估多目标跟踪性能，因此我们利用[24]中定义的评估指标以及标准的MOT指标[25]：

MOTA(↑): 多目标跟踪 accuracy [25]；
MOTP(↑): 多目标跟踪 precision [25]；
FAF(↓): 每帧错误警报的数量；
MT(↑): 大多数跟踪的轨迹数。即目标在至少80％的寿命中具有相同的标签；
ML(↓): 大部分丢失的轨迹数。也就是说，至少在其寿命的20％内未跟踪目标；
FP(↓): 错误检测的次数；
FN(↓): 丢失的检测次数；
ID sw(↓): ID切换到另一个先前跟踪的对象的次数[24]；
Frag(↓): 跟踪被误检测中断的碎片数。

带有（↑）的评估措施，分数越高表示性能越好；对于（↓）的评估措施，分数越低表示绩效越好。真阳性代表跟踪边界框与相应的 ground truth 边界框至少有50％重叠。评估代码是从[6]下载的。

4.2. Performance Evaluation

在这里插入图片描述

使用MOT基准测试[6]测试服务器评估跟踪性能，测试集中保留11个序列的基本情况。表2将本文的方法SORT与其他几种基线跟踪器进行了比较。为简洁起见，只有最相关的跟踪器（就准确性而言是最先进的在线跟踪器），例如（TDAM [18]，MDP [12]），最快的基于批处理的跟踪器（DP NMS [23]）），并列出了所有近似在线方法（NOMT [11]）。此外，还列出了启发该方法的方法（TBD [20]，ALEXTRAC [5]和SMOT [1]）。与其他方法相比，SORT为在线跟踪器获得了最高的MOTA评分，并且可以与最先进的方法NOMT相提并论，后者明显更复杂并且在不久的将来会使用框架。另外，由于SORT的目标是专注于帧与帧之间的关联，因此尽管具有与其他跟踪器类似的误报，但丢失的目标（ML）的数量最少。此外，由于SORT专注于帧到帧的关联以进行跟踪，因此与其他方法相比，它丢失的目标数量最少。

4.3. Runtime

大多数MOT解决方案的目的通常是以运行时性能为代价，将性能提高到更高的准确性。虽然离线处理任务中可以允许缓慢的运行时间，但对于机器人技术和自动驾驶汽车，实时性能至关重要。图1显示了MOT基准[6]上的许多跟踪器，这些跟踪器的速度和准确性都很高。这表明达到最佳精度的方法也往往是最慢的（图1右下）。在频谱的另一端，最快的方法往往具有较低的精度（图1的左上角）。SORT没有典型的缺点，并结合了理想的速度和准确性（图1右上方）。跟踪组件在具有16 GB内存的Intel i7 2.5GHz计算机的单核上以260 Hz的频率运行。

5. CONCLUSION

在本文中，提出了一个简单的在线跟踪框架，该框架着重于帧间预测和关联。我们证明了跟踪质量高度依赖于检测性能，并且通过利用检测的最新发展，仅经典跟踪方法就可以实现最新的跟踪质量。所提出的框架在速度和准确性方面都达到了同类最佳的性能，而其他方法通常会牺牲某些性能。 本文的框架的简单性使其非常适合作为基线，来研究在长期遮挡的情况下重识别对象的方法。由于我们的实验突出了检测质量在跟踪中的重要性，因此未来的工作将研究紧密耦合的检测和跟踪框架。

6. REFERENCES

[1] C. Dicle, M. Sznaier, and O. Camps, “The way they
move: Tracking multiple targets with similar appearance,” in International Conference on Computer Vision,
2013.
[2] S. H. Rezatofighi, A. Milan, Z. Zhang, A. Dick, Q. Shi,
and I. Reid, “Joint Probabilistic Data Association Revisited,” in International Conference on Computer Vision,
2015.
[3] C. Kim, F. Li, A. Ciptadi, and J. M. Rehg, “Multiple
Hypothesis Tracking Revisited,” in International Conference on Computer Vision, 2015.
[4] J. H. Yoon, M. H. Yang, J. Lim, and K. J. Yoon,
“Bayesian Multi-Object Tracking Using Motion Context from Multiple Objects,” in Winter Conference on
Applications of Computer Vision, 2015.
[5] A. Bewley, L. Ott, F. Ramos, and B. Upcroft, “ALExTRAC: Affinity Learning by Exploring Temporal Reinforcement within Association Chains,” in International
Conference on Robotics and Automation. 2016, IEEE.
[6] L. Leal-Taix´e, A. Milan, I. Reid, S. Roth, and
K. Schindler, “MOTChallenge 2015: Towards a Benchmark for Multi-Target Tracking,” arXiv preprint, 2015.
[7] D. Reid, “An Algorithm for Tracking Multiple Targets,”
Automatic Control, vol. 24, pp. 843–854, 1979.
[8] P. Dollar, R. Appel, S. Belongie, and P. Perona, “Fast
Feature Pyramids for Object Detection,” Pattern Analysis and Machine Intelligence, vol. 36, 2014.
[9] S. Oh, S. Russell, and S. Sastry, “Markov Chain
Monte Carlo Data Association for General MultipleTarget Tracking Problems,” in Decision and Control.
2004, pp. 735–742, IEEE.
[10] A. Perera, C. Srinivas, A. Hoogs, and G. Brooksby,
“Multi-Object Tracking Through Simultaneous Long
Occlusions and Split-Merge Conditions,” in Computer
Vision and Pattern Recognition. 2006, IEEE.
[11] W. Choi, “Near-Online Multi-target Tracking with Aggregated Local Flow Descriptor,” in International Conference on Computer Vision, 2015.
[12] Y. Xiang, A. Alahi, and S. Savarese, “Learning to Track
: Online Multi-Object Tracking by Decision Making,”
in International Conference on Computer Vision, 2015.
[13] S. Ren, K. He, R. Girshick, and J. Sun, “Faster R-CNN:
Towards Real-Time Object Detection with Region Proposal Networks,” in Advances in Neural Information
Processing Systems, 2015.
[14] R. Kalman, “A New Approach to Linear Filtering and
Prediction Problems,” Journal of Basic Engineering,
vol. 82, no. Series D, pp. 35–45, 1960.
[15] H. W. Kuhn, “The Hungarian method for the assignment
problem,” Naval Research Logistics Quarterly, vol. 2,
pp. 83–97, 1955.
[16] Y. Bar-Shalom, Tracking and data association, Academic Press Professional, Inc., 1987.
[17] S. H. Bae and K. J. Yoon, “Robust Online Multi-Object
Tracking based on Tracklet Confidence and Online Discriminative Appearance Learning,” Computer Vision
and Pattern Recognition, 2014.
[18] Y. Min and J. Yunde, “Temporal Dynamic Appearance
Modeling for Online Multi-Person Tracking,” oct 2015.
[19] A. Bewley, V. Guizilini, F. Ramos, and B. Upcroft,
“Online Self-Supervised Multi-Instance Segmentation
of Dynamic Objects,” in International Conference on
Robotics and Automation. 2014, IEEE.
[20] A. Geiger, M. Lauer, C. Wojek, C. Stiller, and R. Urtasun, “3D Traffic Scene Understanding from Movable
Platforms,” Pattern Analysis and Machine Intelligence,
2014.
[21] M. Zeiler and R. Fergus, “Visualizing and Understanding Convolutional Networks,” in European Conference
on Computer Vision, 2014.
[22] K. Simonyan and A. Zisserman, “Very Deep Convolutional Networks for Large-Scale Image Recognition,” in
International Conference on Learning Representations,
2015.
[23] H. Pirsiavash, D. Ramanan, and C. Fowlkes, “Globallyoptimal greedy algorithms for tracking a variable number of objects,” in Computer Vision and Pattern Recognition. 2011, IEEE.
[24] Y. Li, C. Huang, and R. Nevatia, “Learning to associate: HybridBoosted multi-target tracker for crowded
scene,” in Computer Vision and Pattern Recognition.
2009, IEEE.
[25] K. Bernardin and R. Stiefelhagen, “Evaluating Multiple
Object Tracking Performance: The CLEAR MOT Metrics,” Image and Video Processing, , no. May, 2008.