论文解读：SORT（目标跟踪）

最新推荐文章于 2024-05-11 12:46:53 发布

AI大道理

最新推荐文章于 2024-05-11 12:46:53 发布

阅读量279

点赞数

分类专栏：目标跟踪（Object Tracking）论文阅读（Thesis reading）文章标签：目标跟踪人工智能计算机视觉

原文链接：https://arxiv.org/abs/1602.00763

版权

目标跟踪（Object Tracking）同时被 2 个专栏收录

8 篇文章 1 订阅

订阅专栏

论文阅读（Thesis reading）

2 篇文章 0 订阅

订阅专栏

本文来自公众号“AI大道理”

——————

论文原文：

https://arxiv.org/abs/1602.00763

本文方法SORT(Simple Online and Realtime Tracking)是一种基于检测的跟踪框架，基于检测算法FasterRCNN，利用卡尔曼滤波以及匈牙利算法进行跟踪。精度可与最先进的在线跟踪器媲美，跟踪器的更新速度是当前其他跟踪器的20倍。

（AI大道理：匈牙利算法进行前后帧的数据关联，卡尔曼滤波对关联后的数据进行预测和融合）

0、摘要

本文探讨了一种实用的多目标跟踪方法，其主要目的是为在线和实时应用有效地关联目标。为此，检测质量被认为是影响跟踪性能的关键因素，更换检测器可将跟踪性能提高 18.9%。尽管仅使用诸如卡尔曼滤波器和匈牙利算法之类的熟悉技术的基本组合作为跟踪组件，这种方法实现了与最先进的在线跟踪器相当的精度。此外，由于我们的跟踪方法简单，跟踪器以 260 Hz 的速率更新，比其他最先进的跟踪器快 20 倍以上。

（AI大道理：达到精度和速度的双高）

1、介绍

针对多目标跟踪(MOT)问题，本文提出了一种基于检测的跟踪框架的精简实现，其中每帧检测对象并将其表示为边界框。与许多基于批次的跟踪方法相比，这项工作主要针对在线跟踪，其中仅将来自先前和当前帧的检测呈现给跟踪器。此外，重点强调了实现实时跟踪的效率，以及在诸如自动车辆的行人跟踪等应用中的推广。

MOT 问题可以看作是一个数据关联问题，其目的是将视频序列中各帧的检测关联起来。为了帮助数据关联过程，跟踪器使用各种方法来模拟场景中对象的运动和外观。本文采用的方法是通过对最近建立的可视化 MOT 基准进行观察而得到的。首先，成熟的数据关联技术重新出现，包括多假设跟踪 (MHT)和联合概率数据关联(JPDA) ，占据了 MOT 基准的许多顶级位置。其次，唯一不使用集合信道滤波器(ACF) 检测器的跟踪器也是排名第一的追踪者，表明检测质量可能阻碍了其他追踪者。此外，精确度和速度之间的权衡似乎相当明显，因为大多数精确跟踪器的速度被认为对于实时应用来说太慢了(见图 1)。随着传统数据关联技术在顶级在线和批量追踪器中的突出地位，以及顶级追踪器所使用的不同检测的使用，这项工作探索了 MOT 可以有多简单，以及它可以执行得有多好。

与奥卡姆剃刀保持一致，在跟踪中忽略检测分量之外的外观特征，并且只有边界框位置和大小用于运动估计和数据关联。此外，关于短期和长期闭塞的问题也被忽略，因为它们很少发生，而且它们的明确治疗介绍将不希望的复杂性引入跟踪框架。我们认为，以对象重新识别的形式加入复杂性会给跟踪框架增加大量开销，从而可能限制其在实时应用中的使用。

（AI大道理：忽略外观特征，仅将边界框的位置和大小用于运动估计和数据关联，显然是在降低精度的。）

这种设计理念与许多提议的视觉跟踪器形成对比，那些视觉跟踪器结合了无数组件来处理各种边缘情况和检测错误。这项工作的重点是有效和可靠地处理常见的帧间关联。我们的目标不是对检测错误具有鲁棒性，而是利用视觉对象检测的最新进展来直接解决检测问题。通过比较常见的 ACF 行人检测器和最近的基于卷积神经网络(CNN)的检测器可以证明这一点。此外，卡尔曼滤波器和匈牙利方法这两种经典但非常有效的方法分别用于处理跟踪问题的运动预测和数据关联部分。这种跟踪的最小化形式促进了在线跟踪的效率和可靠性，参见图 1。在本文中，这种方法仅适用于跟踪各种环境中的行人，然而由于基于CNN 的检测器的灵活性，它自然可以推广到其他对象类别。

本文的主要贡献是：

• 我们在 MOT 环境中利用基于 CNN 的检测功能。

• 提出了一种基于卡尔曼滤波和匈牙利算法的实用跟踪方法，并在最近的 MOT 基准上进行了评估。

• 代码将是开源的，以帮助建立一个基线方法，用于研究实验和避免冲突的应用。

本文组织如下：第 2 节提供了在多目标跟踪领域的相关文献的简短回顾。第 3 节描述了提议的精益跟踪框架，然后在第 4 节展示了提议的标准基准序列框架的有效性。最后，第 5 部分总结了所取得的成果，并讨论了未来的改进。

2、文献点评

传统上，MOT 是使用多假设跟踪(MHT) 或联合概率数据关联(JPDA)滤波器来解决的，当目标分配存在高度不确定性时，这些滤波器会延迟做出困难的决策。这些方法的组合复杂度与被跟踪对象的数量成指数关系，这使得它们在高度动态环境中的实时应用不切实际。最近，Rezatofighi 等人重新考察了可视化 MOT中的 JPDA 公式，目的是通过利用最近在求解方面的发展，利用 JPDA 的有效近似来解决组合复杂性问题整数程序。类似地，Kim 等人为每个目标使用了一个外观模型来修剪 MHT 图，以实现最先进的性能。然而，这些方法仍然延迟决策，这使得它们不适合在线跟踪。

许多在线跟踪方法旨在通过在线学习建立单个对象本身的外观模型或全局模型。除了外观模型之外，通常还结合运动来帮助将检测与轨迹相关联。当仅考虑被建模为二部图匹配的一对一对应时，可以使用全局最优解，例如匈牙利算法。Geiger 等人的方法在两阶段过程中使用匈牙利算法。首先，通过跨相邻帧关联检测来形成轨迹块，其中几何和外观线索被组合以形成相似性矩阵。然后，再次使用几何和外观线索，将轨迹块彼此关联，以桥接由遮挡引起的断裂轨迹。这种两步关联方法将这种方法限制为批量计算。我们的方法受到跟踪组件的启发，然而我们将关联简化为具有基本线索的单个阶段，如下一节所述。

3、方法

所提出的方法通过检测的关键组件来描述，将对象状态传播到未来帧中，将当前检测与现有对象相关联，以及管理被跟踪对象的寿命。

3.1 检测

为了利用基于 CNN 的检测的快速发展，我们利用了更快的区域 CNN (FrRCNN)检测框架。FrRCNN 是一个由两个阶段组成的端到端框架。第一阶段提取特征并为第二阶段提出区域，然后第二阶段在提出的区域中对对象进行分类。该框架的优点是参数在两个阶段之间共享，从而创建了用于检测的有效框架。此外，网络架构本身可以交换到任何能够快速试验不同架构以提高检测性能的设计中。

（AI大道理：FrRCNN就是Faster-RCNN）

在这里，我们比较了 FrRCNN 提供的两种网络架构，即泽勒和弗格斯的架构(FrRCNN(ZF)) 以及Si-monyan 和Zisserman的更深层架构(FrRCNN(VGG16))。在整个工作中，我们应用了FrRCNN 和为 PASCAL VOC 挑战学习的默认参数。因为我们只对行人感兴趣，所以我们忽略所有其他类别，并且只将输出概率大于 50%的人检测结果传递给跟踪框架。

（AI大道理：置信度设置为0.5）

表 1:通过切换检测器组件来比较跟踪性能，根据验证序列进行评估。

在我们的实验中，通过比较FrRCNN检测和ACF检测，我们发现检测质量对跟踪性能有显著的影响。这是通过应用于现有在线跟踪器MDP和本文提出的跟踪器的序列验证集来验证的。表1显示，对于MDP和本文提出的方法，最佳检测器FrRCNN(VGG16)的跟踪精度最好。

3.2 估计模型

这里我们描述对象模型，即用于将目标的身份传播到下一帧的表示和运动模型。我们用独立于其他物体和摄像机运动的线性恒速模型来近似每个物体的帧间位移。每个目标的状态被建模为:

其中 u 和 v 代表目标中心的水平和垂直像素位置，而比例 s 和 r 分别代表目标边界框的比例(面积)和纵横比。注意，纵横比被认为是常数。当检测与目标相关联时，检测到的边界框用于更新目标状态，其中速度分量经由卡尔曼滤波器框架最优地求解。如果没有检测与目标相关联，则简单地预测其状态，而不使用线速度模型进行校正。

（AI大道理：测量值没有，或者说下一帧的检测框通过匈牙利算法没有匹配上上一帧的目标，则直接用卡尔曼滤波进行预测，而不用进行融合。SORT中共使用了7个参数，用来描述检测框的状态。）

3.3 数据关联

在将检测分配给现有目标时，通过预测每个目标在当前帧中的新位置来估计每个目标的边界框几何形状。然后，分配成本矩阵被计算为每个检测和来自现有目标的所有预测边界框之间的交集-并集(IOU)距离。使用匈牙利算法最优地解决分配问题。此外，至少当探测到的目标重叠小于IOUmin时，施加IOU来拒绝分配。

（AI大道理：距离度量用的是IOU，当然也可以用欧氏距离，马氏距离等；IOU有阈值，过来多余的框；然后用匈牙利算法进行匹配）

我们发现边界框的 IOU 距离隐含地处理了由通过目标引起的短期遮挡。具体地，当目标被遮挡物体覆盖时，只有遮挡物被检测到，因为 IOU 距离适当地有利于具有相似尺度的检测。这允许利用检测来校正遮挡目标，而被覆盖的目标不受影响，因为没有进行分配。

3.4 创建和删除航迹标识

当对象进入和离开图像时，需要相应地创建或销毁唯一的身份。为了创建跟踪器，我们认为任何重叠小于IOUmin 的检测都表示存在未被跟踪的对象。跟踪器使用速度设置为零的边界框的几何图形进行初始化。由于在这一点上没有观察到速度，速度分量的协方差用大值初始化，反映了这种不确定性。另外，新的跟踪器然后经历一个试用期，在此期间目标需要与检测相关联，以积累足够的证据，从而防止跟踪的误报。

如果对于 TLost 帧没有检测到轨道，则轨道被终止。这防止了在没有来自检测器的校正的情况下由长时间的预测引起的跟踪器数量和定位误差的无限增长。在所有实验中，TLost 设置为 1 有两个原因。首先，恒定速度模型是真实动态的不良预测器，其次，我们主要关心帧到帧的跟踪，其中对象的重新识别超出了本工作的范围。此外，尽早删除丢失的目标有助于提高效率。如果一个物体再次出现，跟踪将隐含地以新的身份恢复。

（AI大道理：只进行帧与帧的跟踪，一旦经过一个遮挡区域再出现，就变成了新目标。这其实就是跟丢了，本文没有针对这种情况进行优化。）

4、实验

我们在由 MOT 基准数据库设置的一组不同的测试序列上评估了我们的跟踪的性能，该数据库包含移动和静态相机序列。为了调整初始卡尔曼滤波协方差、IOUmin 和 TLost 参数，我们使用了与报告的相同的训练 / 验证分割。所用的检测架构是FrRCNN(VGG16)。源代码和样品检测可在线获得。

4.1. 指标

由于很难使用一个单一的分数来评估多目标跟踪性能，我们利用定义的评估指标，以及标准的 MOT 指标：

• MOTA(↑)：多目标跟踪准确度。

• MOTP(↑)：多目标跟踪精度。

• FAF(↓)：每帧的虚警数量。

• MT(↑)：主要跟踪轨迹的数量。即 tar- get 在其寿命的至少 80%中具有相同的标签。

• ML(↓)：大部分丢失的轨迹数。也就是说，目标至少有 20%的生命周期没有被跟踪。

• FP(↓)：误检数。

• FN(↓)：漏检数。

• ID SW(↓)：ID 切换到不同的先前跟踪对象的次数。

• Frag(↓)：缺失检测中断轨道的片段数量。

带(↑)的评价指标，分数越高表示表现越好；而对于带有(↓)的评估指标，分数越低表示性能越好。真阳性被认为与相应的真实边界框有至少 50%的重叠。

4.2 性能评估

使用 MOT 基准评估跟踪性能测试服务器，其中包含 11 个序列的基本事实。表 2将所提出的排序方法与其他几种基线跟踪器进行了比较。为简洁起见，只列出了最相关的跟踪器，它们在精度方面是最先进的在线跟踪器，如 (TDAM 、MDP)、最快的基于批次的跟踪器(NMS DP)和全方位近在线方法(NOMT)。此外，还列出了启发这种方法的方法(TBD、亚历克斯-特拉和 SMOT)。与这些其他方法相比，SORT 为在线跟踪器获得了最高的MOTA 分数，并可与最先进的方法 NOMT 相媲美，后者要复杂得多，并且在不久的将来使用帧。此外，由于 SORT旨在关注帧与帧之间的关联，因此丢失目标的数量(ML)是最小的，尽管与其他跟踪器有类似的错误否定。此外，由于 SORT 专注于帧到帧的关联来增长轨迹，因此与其他方法相比，它具有最少的丢失目标数。

4.3 实时性

大多数 MOT 解决方案旨在将性能推向更高的精度，通常是以运行时性能为代价的。虽然在离线处理任务中可以容忍较慢的运行时间，但对于机器人和自动驾驶汽车来说，实时性能是必不可少的。图 1 显示了 MOT基准上的多个跟踪器的速度和精度。这表明，获得最佳精度的方法往往也是最慢的(图 1 的右下方)。另一方面，最快的方法往往精确度较低(图 1 的左上角)。SORT 结合了两个理想的属性，速度和准确性，没有典型的缺点(图 1 的右上角)。跟踪组件在 Inteli7 2.5GHz 机器的单核上以 260 Hz 运行，内存为 16GB。

5、结论

本文提出了一个简单的在线跟踪框架，重点是帧间预测和关联。我们表明，跟踪质量高度依赖于检测性能，通过利用检测技术的最新发展，仅使用传统的跟踪方法就可以实现最先进的跟踪质量。所提出的框架在速度和准确性方面实现了同类最佳的性能，而其他方法通常会牺牲一个来换取另一个。所提出的框架的简单性使其非常适合作为基线，允许新的方法集中于对象重新识别以处理长期遮挡。由于我们的实验强调了检测质量在跟踪中的重要性，未来的工作将研究一个紧密耦合的检测和跟踪框架。

6、总结

SORT是一个比较简单的算法，用FrRCNN做探测，卡尔曼滤波和匈牙利算法做跟踪。

但是局限性也挺大：

线性恒速运动模型可能并不精确，未考虑相机的非线性运动。
未考虑同一目标再次出现的重识别(Re-ID)问题。

——————

浅谈则止，细致入微AI大道理

扫描下方“AI大道理”，选择“关注”公众号

—————————————————————

投稿吧 | 留言吧

AI大道理

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
论文解读：SORT（目标跟踪）

为简洁起见，只列出了最相关的跟踪器，它们在精度方面是最先进的在线跟踪器，如 (TDAM 、MDP)、最快的基于批次的跟踪器(NMS DP)和全方位近在线方法(NOMT)。此外，由于 SORT旨在关注帧与帧之间的关联，因此丢失目标的数量(ML)是最小的，尽管与其他跟踪器有类似的错误否定。首先，恒定速度模型是真实动态的不良预测器，其次，我们主要关心帧到帧的跟踪，其中对象的重新识别超出了本工作的范围。另外，新的跟踪器然后经历一个试用期，在此期间目标需要与检测相关联，以积累足够的证据，从而防止跟踪的误报。
复制链接

扫一扫