多目标跟踪之经典模型SORT论文（翻译+精读）

最新推荐文章于 2025-03-17 22:37:31 发布

Anlina Li

最新推荐文章于 2025-03-17 22:37:31 发布

阅读量1k

点赞数 18

分类专栏：多目标追踪文章标签：目标跟踪人工智能计算机视觉

本文链接：https://blog.csdn.net/m0_46582737/article/details/140407205

版权

多目标追踪专栏收录该内容

5 篇文章

订阅专栏

前置知识

卡尔曼滤波（易懂版，没有硬核数学知识）

检测值：目标检测出来的框（不一定准）
估计值：模型预测出来的框（有误差）
**估计方法：**状态转移矩阵。该矩阵可以通过前一时刻的状态预测后一时刻的状态。

虽然都有误差，但是都有价值。所以就综合利用这些信息估计最优信息。于是将追踪过程分为两个阶段：

每一个track都要预测下一时刻的状态
每一个track都要基于检测到的结果来修正预测的状态

修正方法：

一个观测值一个估计值，看哪个值的权重大。
卡尔曼增益k：相当于一个权重项。该怎样利用估计和预测，使得修正后的值的方差更小。它决定了卡尔曼滤波的核心作用。
协方差矩阵p：表示预测的目标位置信息的不确定性。每一帧的协方差矩阵不同。

论文正餐

摘要

翻译

本文探讨了一种实用的多对象跟踪方法，其主要重点是为在线和实时应用程序有效地关联对象。为此，检测质量被认为是影响跟踪性能的关键因素，更换检测器可以将跟踪性能提高高达 18.9%。尽管仅使用卡尔曼滤波器和匈牙利算法等熟悉技术的基本组合来跟踪组件，但这种方法所达到的精度可与最先进的在线跟踪器相媲美。此外，由于我们的跟踪方法简单，跟踪器的更新速度为 260 Hz，比其他最先进的跟踪器快 20 倍以上。

精读

我们关注的多对象跟踪任务重点：

关联帧间对象是否是同一个
检测质量是跟踪效果最重要的因素

**我们的SORT方法：**仅使用简单的卡尔曼滤波器和匈牙利算法。精度可与最先进的在线跟踪器媲美，速度快20倍以上。

1. 引言

翻译

本文提出了一种针对多对象跟踪 (MOT) 问题的检测跟踪框架的精益实现，其中每帧检测对象并将其表示为边界框。与许多基于批量的跟踪方法 [1,2,3] 相比，这项工作主要针对在线跟踪，其中仅将前一帧和当前帧的检测呈现给跟踪器。此外，还非常重视促进实时跟踪的效率，并促进自动驾驶汽车的行人跟踪等应用的更大采用。

MOT 问题可以被视为数据关联问题，其目的是将视频序列中跨帧的检测关联起来。为了帮助数据关联过程，跟踪器使用各种方法对场景中对象的运动 [1, 4] 和外观 [5, 3] 进行建模。本文采用的方法是通过对最近建立的视觉 MOT 基准的观察而激发的[6]。首先，成熟的数据关联技术重新兴起，包括多重假设跟踪（MHT）[7, 3]和联合概率数据关联（JPDA）[2]，它们占据了 MOT 基准的许多前列。其次，唯一不使用聚合通道滤波器（ACF）[8]检测器的跟踪器也是排名最高的跟踪器，表明检测质量可能会阻碍其他跟踪器。此外，精度和速度之间的权衡显得非常明显，因为大多数精确跟踪器的速度对于实时应用来说被认为太慢（见图 1）。随着传统数据关联技术在顶级在线和批量跟踪器中的突出地位，以及顶级跟踪器使用的不同检测的使用，这项工作探索了 MOT 的简单性以及它的性能如何。

精读

我们的SORT的**特点：**针对在线跟踪。**方法：**仅将前一帧和当前帧的检测呈现给跟踪器。

**MOT问题的内容：**数据关联。将视频序列中跨帧的检测关联起来。

先前的数据关联技术：

多重假设跟踪（MHT）
联合概率数据关联（JPDA）

MOT问题特点：

检测质量是影响跟踪效果的很大的因素
精度和速度之间有着权衡

翻译

与Occam’s Razor保持一致，在跟踪中忽略检测组件之外的外观特征，仅将边界框位置和大小用于运动估计和数据关联。此外，有关短期和长期遮挡的问题也被忽略，因为它们很少发生，并且它们的显式处理给跟踪框架带来了不期望的复杂性。我们认为，以对象重新识别的形式纳入复杂性会增加跟踪框架的显着开销 - 可能会限制其在实时应用程序中的使用。

精读

忽略：

外观特征被忽略，仅将边界框的位置和大小用于运动估计和数据关联。
短期和长期遮挡问题被忽略

忽略的原因：

这些情况较少发生
考虑这些内容会增加跟踪器复杂性，可能限制实时使用

翻译

这种设计理念与许多提出的视觉跟踪器形成鲜明对比，后者包含大量组件来处理各种边缘情况和检测错误[9,10,11,12]。相反，这项工作侧重于有效且可靠地处理常见的帧到帧关联。我们的目标不是对检测错误具有鲁棒性，而是利用视觉对象检测的最新进展来直接解决检测问题。这是通过将常见的 ACF 行人检测器 [8] 与最近的基于卷积神经网络 (CNN) 的检测器 [13] 进行比较来证明的。此外，两种经典但极其有效的方法，卡尔曼滤波器[14]和匈牙利方法[15]，分别被用来处理跟踪问题的运动预测和数据关联部分。这种简约的跟踪公式有利于在线跟踪的效率和可靠性，见图 1。在本文中，这种方法仅适用于跟踪各种环境中的行人，但是由于基于 CNN 的检测器 [13] 的灵活性，它自然可以推广到其他对象类。

在这里插入图片描述

所提出的方法（SORT）与多个基线跟踪器相关的基准性能[6]。每个标记表示跟踪器的精度和速度（以每秒帧数 (FPS) [Hz] 为单位），即越高越右越好。

本文的主要贡献是： • 我们在 MOT 背景下利用基于 CNN 的检测功能。 • 提出了一种基于卡尔曼滤波器和匈牙利算法的实用跟踪方法，并在最近的 MOT 基准上进行了评估。 • 代码将开源，以帮助建立研究实验和防撞应用的基线方法。本文的结构如下：第 2 部分对多目标跟踪领域的相关文献进行了简短回顾。第 3 节描述了所提议的精益跟踪框架，然后第 4 节演示了所提议的框架对标准基准序列的有效性。最后，第 5 节提供了所学到的成果的总结并讨论了未来的改进。

精读

**研究背景：**当前很多跟踪器包含大量组件处理各种边缘情况的检测错误。

**我们的研究侧重点：**不是对检测错误有鲁棒性，而是利用检测的最新进展来直接解决检测问题。

研究方法：

检测：一种CNN检测器
处理跟踪问题的运动预测：卡尔曼滤波器
数据关联部分：匈牙利方法

**结果：**达到了目前精度与速度的很好平衡

本文贡献：

• 我们在 MOT 背景下利用基于 CNN 的检测功能。

• 提出了一种基于卡尔曼滤波器和匈牙利算法的实用跟踪方法，并在最近的 MOT 基准上进行了评估。

• 代码将开源，以帮助建立研究实验和防撞应用的基线方法。

本文的结构：

第 2 部分对多目标跟踪领域的相关文献进行了简短回顾。

第 3 节描述了所提议的精益跟踪框架，

然后第 4 节演示了所提议的框架对标准基准序列的有效性。

最后，第 5 节提供了所学到的成果的总结并讨论了未来的改进。

2. 文献综述

翻译

传统上，MOT 是使用多重假设跟踪 (MHT) [7] 或联合概率数据关联 (JPDA) 过滤器 [16, 2] 来解决的，这会延迟做出困难的决策，同时对象分配存在高度不确定性。这些方法的组合复杂性随着跟踪对象的数量呈指数级增长，这使得它们对于高度动态环境中的实时应用程序来说是不切实际的。最近，Rezatofighi 等人。 [2]，重新审视了视觉 MOT 中的 JPDA 公式 [16]，目的是通过利用求解整数程序的最新进展，通过 JPDA 的有效近似来解决组合复杂性问题。同样，Kim 等人。 [3] 使用每个目标的外观模型来修剪 MHT 图，以实现最先进的性能。然而，这些方法仍然会延迟决策，这使得它们不适合在线跟踪。

许多在线跟踪方法旨在通过在线学习构建单个对象本身的外观模型[17,18,12]或全局模型[19,11,4,5]。除了外观模型之外，通常还结合运动来帮助将检测与轨迹相关联[1,19,4,11]。当仅考虑建模为二部图匹配的一对一对应时，可以使用全局最优解，例如匈牙利算法 [15] [10, 20]。

盖革等人的方法。 [20]在两阶段过程中使用匈牙利算法[15]。首先，轨迹是通过关联相邻帧的检测来形成的，其中几何形状和外观线索组合起来形成亲和力矩阵。然后，再次使用几何和外观线索，将轨迹相互关联以桥接由遮挡引起的中断轨迹。这种两步关联方法将该方法限制为批量计算。我们的方法受到[20]的跟踪组件的启发，但是我们将关联简化为具有基本提示的单个阶段，如下一节所述。

精读

**背景：**传统方法由于复杂性较高，在在线应用中是不切实际的。

**很多方法：**通过在线学习单个对象本身的外观模型，同时结合运动来帮助检测与轨迹相关联

**盖革的方法：**在两阶段过程中使用匈牙利算法。1. 轨迹是通过关联相邻帧间的检测形成的，几何形状和外观线索会组合起来形成关联矩阵。2. 再次使用几何和外观线索，将轨迹相互关联以此连接由遮挡引起的中断轨迹。

**我们的方法：**受到盖革方法的启发，但将关联简化为单个阶段。

3. 方法论

所提出的方法由检测的关键组成部分来描述，将对象状态传播到未来帧中，将当前检测与现有对象相关联，以及管理跟踪对象的生命周期。

3.1 检测

翻译

为了利用基于 CNN 的检测的快速发展，我们利用 Faster Region CNN (FrRCNN) 检测框架 [13]。 FrRCNN 是一个端到端框架，由两个阶段组成。第一阶段提取特征并为第二阶段提出区域，然后第二阶段对建议区域中的对象进行分类。该框架的优点是两个阶段之间共享参数，从而创建有效的检测框架。此外，网络架构本身可以更换为任何设计，从而能够快速试验不同的架构以提高检测性能。

在这里，我们比较了 FrRCNN 提供的两种网络架构，即 Zeiler 和 Fergus 的架构 (FrRCNN(ZF)) [21] 以及 Simonyan 和 Zisserman 的更深层次架构 (FrRCNN(VGG16)) [22]。在整个工作中，我们应用 FrRCNN 以及为 PASCAL VOC 挑战学习的默认参数。由于我们只对行人感兴趣，因此我们忽略所有其他类别，只将输出概率大于 50% 的人员检测结果传递给跟踪框架。

在我们的实验中，我们发现在将 FrRCNN 检测与 ACF 检测进行比较时，检测质量对跟踪性能有显着影响。这是使用应用于现有在线跟踪器 MDP [12] 和此处提出的跟踪器的验证序列集进行演示的。表 1 显示，最佳检测器 (FrRCNN(VGG16)) 可为 MDP 和所提出的方法带来最佳跟踪精度。

在这里插入图片描述

通过切换探测器组件来比较跟踪性能。根据[12]中列出的验证序列进行评估。

精读

检测部分网络：Faster Region CNN (FrRCNN) 检测框架

FrRCNN结构：端到端、两阶段

实验：实验展示FrRCNN作为最佳检测器，可带来跟踪精度。

3.2 估计模型

翻译

在这里，我们描述对象模型，即用于将目标的身份传播到下一帧的表示和运动模型。我们使用独立于其他对象和相机运动的线性恒速模型来近似每个对象的帧间位移。每个目标的状态建模为：在这里插入图片描述

其中u和v表示目标中心的水平和垂直像素位置，而尺度s和r分别表示目标边界框的尺度（面积）和长宽比。请注意，长宽比被认为是恒定的。当检测与目标相关联时，检测到的边界框用于更新目标状态，其中通过卡尔曼滤波器框架[14]最佳地求解速度分量。如果没有与目标关联的检测，则简单地预测其状态，而不使用线速度模型进行校正。

精读

**估计模型定义：**将目标的身份传播到下一帧的表示和运动模型

**估计模型：**卡尔曼滤波器，线性模型。

**卡尔曼滤波器：**滤波器根据轨迹上一时刻的状态线性预测下一时刻的边界框，然后通过下一时刻的检测结果对估计值进行修正。

3.3 数据关联

翻译

在将检测分配给现有目标时，每个目标的边界框几何形状是通过预测其在当前帧中的新位置来估计的。然后将分配成本矩阵计算为每个检测与现有目标的所有预测边界框之间的交并（IOU）距离。使用匈牙利算法最优地解决分配问题。此外，当目标重叠检测小于 IOUmin 时，会施加最小 IOU 来拒绝分配。

我们发现边界框的 IOU 距离隐式地处理了通过目标引起的短期遮挡。具体来说，当目标被遮挡物体覆盖时，仅检测到遮挡物，因为 IOU 距离适当地有利于具有相似尺度的检测。这使得遮挡目标能够通过检测进行校正，而被覆盖的目标则不受影响，因为没有进行分配。

精读

数据关联步骤：

为每个检测与现有目标的所有预测边界框计算IOU距离
使用匈牙利算法解决分配问题
当两个之间的IOU小于IOUmin时，拒绝分配

IOU距离隐式的解决了通过目标引起的短期遮挡。为什么？

3.4 创建和删除轨道标识

翻译

当物体进入和离开图像时，需要相应地创建或销毁独特的身份。为了创建跟踪器，我们考虑任何重叠小于 IOUmin 的检测来表示存在未跟踪的对象。跟踪器使用边界框的几何形状进行初始化，并将速度设置为零。由于此时未观察到速度，因此速度分量的协方差被初始化为大值，反映了这种不确定性。此外，新的跟踪器随后会经历一段试用期，在此期间，目标需要与检测相关联，以积累足够的证据，以防止跟踪误报。

如果未检测到 TLost 帧，则轨道将终止。这可以防止跟踪器数量的无限增长以及由于长时间预测而无需检测器进行校正而导致的定位错误。在所有实验中，TLost 设置为 1 有两个原因。首先，等速模型对真实动力学的预测效果很差，其次我们主要关注帧到帧跟踪，其中对象重新识别超出了本工作的范围。此外，尽早删除丢失的目标有助于提高效率。如果某个对象重新出现，跟踪将在新身份下隐式恢复。

精读

方法步骤：

新出现的对象：重叠小于IOUmin的检测
新跟踪器会进入一段试用期。
轨道的销毁：未检测到TLost帧，SORT将其设置为1。
提倡如果某个对象重新出现，跟踪将在新身份下隐式恢复。代表SORT不关注IDsw。

4. 实验

我们在 MOT 基准数据库 [6] 设置的一组不同的测试序列上评估跟踪实现的性能，其中包含移动和静态相机序列。为了调整初始卡尔曼滤波器协方差、IOUmin 和 TLost 参数，我们使用[12]中报告的相同训练/验证分割。使用的检测架构是 FrRCNN（VGG16）[22]。 [22] 中的源代码和样本检测可在线获取。 1

4.1 指标

翻译

由于很难使用单个分数来评估多目标跟踪性能，因此我们利用[24]中定义的评估指标以及标准MOT指标[25]：

• MOTA（↑）：多目标跟踪精度[25] 。

• MOTP(↑)：多目标跟踪精度[25]。

• FAF(↓)：每帧误报数。

• MT(↑)：主要跟踪的轨迹数量。 IE。目标在其生命周期的至少 80% 内具有相同的标签。

• ML(↓)：大部分丢失的轨迹数量。即目标在其生命周期的至少 20% 内未被跟踪。

• FP(↓)：错误检测的数量。

• FN(↓)：漏检次数。

• ID sw(↓)：ID 切换到不同的先前跟踪对象的次数[24]。

• Frag(↓)：轨道因未检测到而中断的碎片数。

带（↑）的评价指标，分数越高表示表现越好；而对于带有（↓）的评价指标，分数越低表示表现越好。真阳性被认为与相应的真实边界框至少有 50% 的重叠。评估代码从[6]下载。

在这里插入图片描述

精读

MOTA最高的是一个批量跟踪器有33.7。SORT作为在线跟踪器MOTA为第二高，有33.4。
MOTP最高的是一个在线跟踪器有72.8。但SORT作为第二高也有72.1。
SORT的FAF每帧误报数最低。
SORT的ML大部分丢失的轨迹数量最低，错误检测的数量FP最低，漏检次数FN第三低
IDsw较高，由于SORT并不关注这个。

综合得到，不考虑IDsw只考虑跟踪精度时，SORT最好

4.2 绩效评估

翻译

跟踪性能使用 MOT 基准测试 [6] 测试服务器进行评估，其中保留了 11 个序列的基本事实。表 2 将所提出的方法 SORT 与其他几种基线跟踪器进行了比较。为了简洁起见，仅使用最相关的跟踪器，这些跟踪器在准确性方面是最先进的在线跟踪器，例如（TDAM [18]，MDP [12]），最快的基于批次的跟踪器（DP NMS [23] ），并列出了所有的近在线方法（NOMT [11]）。此外，还列出了启发该方法的方法（TBD [20]、ALExTRAC [5] 和 SMOT [1]）。与这些其他方法相比，SORT 在在线跟踪器中获得了最高的 MOTA 分数，并且与最先进的方法 NOMT 相当，后者明显更加复杂，并且在不久的将来使用框架。此外，由于 SORT 的目标是关注帧与帧之间的关联，因此尽管与其他跟踪器具有类似的误报，但丢失目标 (ML) 的数量却很少。此外，由于 SORT 专注于帧到帧关联来增长轨迹，因此与其他方法相比，它的丢失目标数量最少。

精读

SORT的丢失目标数量最少，主要关注是否跟踪到。

4.3 运行

翻译

大多数 MOT 解决方案旨在将性能提高到更高的准确度，但通常会以运行时性能为代价。虽然离线处理任务中可以容忍较慢的运行时间，但对于机器人和自动驾驶车辆来说，实时性能至关重要。图 1 显示了 MOT 基准 [6] 上的一些跟踪器的速度和准确性。这表明，达到最佳准确度的方法往往也是最慢的（图 1 右下角）。另一方面，最快的方法往往具有较低的精度（图 1 的左上角）。 SORT 结合了速度和准确性这两个理想的特性，并且没有典型的缺点（图 1 的右上角）。跟踪组件在具有 16 GB 内存的 Intel i7 2.5GHz 机器的单核上以 260 Hz 的频率运行。

精读

SORT结合了速度和准确性，达到了不错的平衡。

5. 结论

翻译

在本文中，提出了一个简单的在线跟踪框架，重点关注帧到帧的预测和关联。我们表明，跟踪质量高度依赖于检测性能，并且通过利用检测的最新发展，仅使用经典的跟踪方法就可以实现最先进的跟踪质量。所提出的框架在速度和准确性方面均实现了同类最佳的性能，而其他方法通常会牺牲其中一种来替代另一种。所提出的框架的简单性使其非常适合作为基线，允许新方法专注于对象重新识别以处理长期遮挡。由于我们的实验强调了跟踪中检测质量的重要性，因此未来的工作将研究紧密耦合的检测和跟踪框架。