多目标跟踪之DeepSORT论文（翻译+精读）

最新推荐文章于 2025-03-22 00:26:37 发布

Anlina Li

最新推荐文章于 2025-03-22 00:26:37 发布

阅读量2.1k

点赞数 24

分类专栏：多目标追踪文章标签：目标跟踪人工智能计算机视觉

本文链接：https://blog.csdn.net/m0_46582737/article/details/140407535

版权

多目标追踪专栏收录该内容

5 篇文章

订阅专栏

DeepSORT：具有深度关联指标的简单在线实时跟踪

摘要

翻译

简单在线实时跟踪 (SORT) 是一种实用的多对象跟踪方法，重点关注简单、有效的算法。在本文中，我们整合外观信息来提高 SORT 的性能。由于这种扩展，我们能够通过更长的遮挡时间来跟踪对象，从而有效地减少身份切换的数量。本着原始框架的精神，我们将大部分计算复杂性放入离线预训练阶段，在该阶段我们在大规模人员重新识别数据集上学习深度关联度量。在在线应用过程中，我们使用视觉外观空间中的最近邻查询建立测量与跟踪关联。实验评估表明，我们的扩展将身份切换数量减少了 45%，在高帧速率下实现了整体竞争性能。

精读

**优势：**DeepSORT在SORT的基础上整合了目标的外观信息，以此提高SORT的性能。

**方法：**将大部分复杂的计算放入离线预训练阶段。离线预训练阶段在大规模的人员id数据集上学习深度关联的特征。在在线过程中，对外观特征使用最近邻查询来关联id。

**效果：**在保证高速帧率运行的情况下，将ID切换减少了45%。

思考：

人员id数据集格式是什么样子的，如何进行训练和保存？
在线过程中外观特征是需要进行提取的，这部分耗时如何降低？
最近邻查询是什么，怎么进行的？

1. 引言

翻译

由于对象检测的最新进展，检测跟踪已成为多对象跟踪的领先范例。在这种范式中，对象轨迹通常出现在一次处理整个视频批次的全局优化问题中。例如，流网络公式[1,2,3]和概率图模型[4,5,6,7]已成为此类流行的框架。然而，由于批处理，这些方法不适用于每个时间步都必须提供目标身份的在线场景。更传统的方法是多重假设跟踪（MHT）[8]和联合概率数据关联过滤器（JPDAF）[9]。这些方法逐帧执行数据关联。在 JPDAF 中，通过根据关联可能性对各个测量值进行加权来生成单状态假设。在 MHT 中，所有可能的假设都会被跟踪，但必须应用剪枝方案来实现计算的易处理性。最近在检测跟踪场景中重新审视了这两种方法 [10, 11]，并显示出有希望的结果。然而，这些方法的性能伴随着计算和实现复杂性的增加。

精读

**前提：**基于检测的跟踪在多对象跟踪问题中的效果更加领先。

传统方法：

多重假设跟踪（MHT）：所有可能的假设都会被跟踪，必须剪枝
联合概率数据关联过滤器（JPDAF）：根据关联的可能性对各个测量值进行加权来生成最后的一个状态的假设。

**传统方法的问题：**计算复杂、实现复杂。

翻译

简单在线实时跟踪（SORT）[12]是更简单的框架，使用匈牙利方法和测量边界框重叠的关联度量在图像空间中执行卡尔曼滤波和逐帧数据关联。这种简单的方法可以在高帧速率下实现良好的性能。在 MOT 挑战数据集 [13] 上，使用最先进的人体检测器 [14] 的 SORT 在标准检测上的平均排名高于 MHT。这不仅强调了物体检测器性能对整体跟踪结果的影响，而且从从业者的角度来看也是一个重要的见解。

在跟踪精度和准确度方面实现总体良好性能的同时，SORT 返回相对较高数量的身份切换。这是因为，所采用的关联度量仅在状态估计不确定性较低时才准确。因此，SORT 在通过遮挡进行跟踪方面存在缺陷，因为遮挡通常出现在前视摄像头场景中。我们通过将关联度量替换为结合了运动和外观信息的更明智的度量来解决这个问题。特别是，我们应用了经过训练的卷积神经网络（CNN），可以在大规模行人重新识别数据集上区分行人。通过集成该网络，我们提高了针对遗漏和遮挡的鲁棒性，同时保持系统易于实施、高效且适用于在线场景。我们的代码和预训练的 CNN 模型已公开，以促进研究实验和实际应用开发。

精读

**前置方法SORT的优点：**通过与MHT和JPDAF对比，发现其：简单、高帧速率、良好性能、排名更高

SORT方法内容：

关联度量：匈牙利方法、测量边界框重叠、逐帧数据关联
卡尔曼滤波

**SORT问题：**ID切换次数多

**原因：**SORT使用的关联度量仅在状态估计不确定性较低时才准确，于是当不确定性较高时就会出现ID切换频繁的问题。

**不确定性：**遮挡：物体被遮挡导致运动信息丢失。物体再次出现会被定义为新物体，这就发生了ID切换。

我们DeepSORT的解决办法：

结合运动和外观信息的度量：使用了一个经过训练的CNN，该CNN可以在大规模数据集上区分行人
提高了针对遗漏和遮挡问题的鲁棒性。

2. 使用深度关联指标排序

我们采用传统的单一假设跟踪方法，具有递归卡尔曼滤波和逐帧数据关联。在下一节中，我们将更详细地描述该系统的核心组件。

2.1 轨迹处理和状态估计

翻译

轨迹处理和卡尔曼滤波框架与[12]中的原始公式基本相同。我们假设一个非常普遍的跟踪场景，其中相机未校准并且我们没有可用的自我运动信息。虽然这些情况对过滤框架提出了挑战，但它是最近的多个对象跟踪基准测试中考虑的最常见设置[15]。因此，我们的跟踪场景是在八维状态空间（u，v，γ，h, ̇ x, ̇ y, ̇ γ, ̇ h）上定义的，其中包含边界框中心位置（u，v），纵横比γ 、高度 h 以及它们各自在图像坐标中的速度。我们使用具有等速运动和线性观测模型的标准卡尔曼滤波器，其中我们将边界坐标（u，v，γ，h）作为对象状态的直接观测。

对于每个轨道 k，我们计算自上次成功测量关联 ak 以来的帧数。该计数器在卡尔曼滤波器预测期间递增，并在轨迹与测量关联时重置为 0。超过预定义最大寿命 Amax 的轨迹被视为已离开场景并从轨迹集中删除。对于无法与现有轨迹关联的每个检测，都会启动新的轨迹假设。这些新轨道在前三帧中被归类为暂定轨道。在此期间，我们期望每个时间步骤都有成功的测量关联。前三帧内未成功关联到测量的轨迹将被删除。

精读

**轨迹处理：**线性恒速的卡尔曼滤波器。

轨迹的创建与结束：

超过预定义最大寿命 Amax 的轨迹被视为已离开场景并从轨迹集中删除
对于无法与现有轨迹关联的每个检测，都会启动新的轨迹假设。前三帧为暂定的，在这三帧中未成功关联到测量的轨迹将被删除。

2.2 分配问题

翻译

解决预测卡尔曼状态和新到达的测量之间的关联的传统方法是构建可以使用匈牙利算法解决的分配问题。在这个问题的表述中，我们通过结合两个适当的指标来整合运动和外观信息。为了合并运动信息，我们使用预测卡尔曼状态和新到达的测量值之间的（平方）马哈拉诺比斯距离：在这里插入图片描述

其中，我们用 (yi, Si) 表示第 i 个轨迹分布到测量空间的投影，用 dj 表示第 j 个边界框检测。马哈拉诺比斯距离通过测量检测距离平均轨道位置的标准偏差来考虑状态估计不确定性。此外，使用此度量，可以通过在从逆 χ2 分布计算出的 95% 置信区间对马哈拉诺比斯距离进行阈值化，从而排除不太可能的关联。我们用一个指标来表示这个决定

在这里插入图片描述

如果第 i 个轨迹和第 j 个检测之间的关联是可接受的，则评估结果为 1。对于我们的四维测量空间，相应的马哈拉诺比斯阈值是 t(1) = 9.4877。

精读

Q1. 卡尔曼滤波有先验估计和测量值。如何关联两者？

**方法：**匈牙利算法

**关联尺度：**1. 运动信息；2. 外观信息

Q2. 运动信息的关联是如何进行的？

**方法：**马哈拉诺比斯（Mahalanobis）距离

过程：

对该帧的第i个轨迹的估计和该帧第j个检测框利用上述公式1计算两者的一个距离d（1）（i，j）
使用公式2可以得到两者是否关联的结果。
如果第i个轨迹和第j个检测框的关联可被接受，则评估结果为1
这里有个马哈拉诺比斯阈值。可以使用95%的置信度区间筛除掉不太可能的关联。

翻译

虽然当运动不确定性较低时，马哈拉诺比斯距离是一个合适的关联度量，但在我们的图像空间问题公式中，从卡尔曼滤波框架获得的预测状态分布仅提供了对象位置的粗略估计。特别是，未考虑的相机运动可能会在图像平面中引入快速位移，使得马哈拉诺比斯距离成为通过遮挡进行跟踪的相当不知情的度量。因此，我们将第二个指标集成到分配问题中。对于每个边界框检测 dj，我们计算一个外观描述符 rj，其中 ‖rj‖ = 1。此外，我们为每个轨迹保留最后一个 Lk = 100 个相关外观描述符的图库 Rk = 在这里插入图片描述
.然后，我们的第二个度量测量外观空间中第 i 个轨迹和第 j 个检测之间的最小余弦距离：

在这里插入图片描述

再次，我们引入一个二元变量来指示根据该指标关联是否可接受

在这里插入图片描述

我们在单独的训练数据集上找到了该指标的合适阈值。在实践中，我们应用预先训练的 CNN 来计算边界框外观描述符。该网络的架构在 2.4 节中描述。

精读

仅使用运动信息会出现的问题：

运动信息仅提供粗略的位置估计，当遮挡出现时，无法准确关联。
目标的快速位移会导致位置估计误差较大。

Q3. 外观信息的关联是如何进行的？

**方法：**余弦距离

过程：

每一个检测框dj计算一个外观描述符rj（通过一个简单的CNN网络得到），每一条轨迹i保留100个外观描述符。
轨迹i有100个保留的外观描述符，100个轨迹i的分别与j的进行计算，利用公式3计算一个值，最后结果为这100个结果中的距离的最小值。
i和j是否关联看公式4（阈值判断）的结果。

翻译

结合起来，这两个指标通过服务于分配问题的不同方面来相互补充。一方面，马哈拉诺比斯距离提供了有关基于运动的可能对象位置的信息，这对于短期预测特别有用。另一方面，余弦距离考虑了外观信息，当运动的辨别力较差时，这些信息对于在长期遮挡后恢复身份特别有用。为了构建关联问题，我们使用加权和将两个指标结合起来

在这里插入图片描述

如果关联位于两个指标的门控区域内，我们称该关联为可接受的：

在这里插入图片描述

每个指标对组合关联成本的影响可以通过超参数 λ 来控制。在我们的实验中，我们发现当存在大量相机运动时，设置 λ = 0 是一个合理的选择。在此设置中，关联成本项中仅使用外观信息。然而，马哈拉诺比斯门仍然用于忽略基于卡尔曼滤波器推断的可能对象位置的不可行分配。

精读

**运动信息：**提供有关基于运动的可能对象的位置信息，对于短期预测特别有用

**外观信息：**对于长期遮挡后的身份恢复特别有用

加权结合：

使用公式5对两个距离进行加权结合
如果两个指标都被标识为关联成功，则i与j关联成功（公式6）。
公式5加权结合里有一个λ，表示使用多少的运动信息和外观信息。如果存在大量相机运动的话，利用运动信息进行评估可能效果并不好，于是就将λ设置为0，这就表示仅使用外观信息进行关联。但进行忽略的时候，仍然会使用运动信息。见公式6。

2.3 级联匹配

翻译

我们不是解决全局分配问题中的测量与跟踪关联，而是引入解决一系列子问题的级联。为了激发这种方法，请考虑以下情况：当物体被遮挡较长时间时，随后的卡尔曼滤波器预测会增加与物体位置相关的不确定性。因此，概率质量在状态空间中扩散，并且观察可能性变得不那么峰值。直观上，关联度量应该通过增加测量到跟踪的距离来解释概率质量的分布。与直觉相反，当两个轨迹竞争相同的检测时，马哈拉诺比斯距离有利于更大的不确定性，因为它有效地减少了任何检测到投影轨迹平均值的标准偏差距离。这是一种不受欢迎的行为，因为它可能导致轨道碎片增加和轨道不稳定。因此，我们引入了一个匹配级联，优先考虑更常见的对象，以编码关联可能性中的概率分布概念。

精读

问题：

物体被遮挡较长时间，会导致卡尔曼滤波器的预测增加不确定性。
当两个轨迹竞争相同检测时，马哈拉诺比斯距离有利于不确定性较高的轨迹。（原因？）
导致轨道不稳定

于是引入了级联匹配。

翻译

清单 1 概述了我们的匹配算法。作为输入，我们提供了一组轨迹 T 和检测 D 索引以及最大年龄 Amax。在第 1 行和第 2 行中，我们计算关联成本矩阵和可接受的关联矩阵。然后，我们迭代轨道年龄 n 以解决年龄增加的轨道的线性分配问题。在第 6 行中，我们选择未与最后 n 帧中的检测关联的轨迹子集 Tn。在第 7 行中，我们解决了 Tn 中的轨迹与不匹配的检测 U 之间的线性分配。在第 8 行和第 9 行中，我们更新了匹配和不匹配的检测集，并在第 11 行完成后返回。请注意，此匹配级联优先考虑年龄较小的轨迹，即最近出现过的轨迹。

在最后的匹配阶段，我们按照原始 SORT 算法 [12] 中的建议，在年龄 n = 1 的一组未经确认和未匹配的轨迹上运行并集关联的交集。这有助于考虑突然的外观变化，例如，由于静态场景几何体的部分遮挡，并提高针对错误初始化的鲁棒性。

在这里插入图片描述

精读

级联匹配步骤：

得到这一帧的N个轨迹T和M个检测框D，以及最大的年龄Amax
根据公式5（加权结合公式）计算代价矩阵c
根据公式6计算出一个矩阵包含T和D的可接受的关联内容
初始化一个已匹配集合M为空
初始化未匹配的检测框集合U为D
从轨迹未匹配年龄由小至大开始循环：（从未匹配年龄小的开始匹配，解决了上述问题）
1. 先选出未匹配年龄为n的轨迹
2. 使用匈牙利算法进行匹配，为未匹配年龄为n的轨迹关联检测框，得到xij
3. 根据xij更新已匹配集合M和未匹配检测框U
4. 循环结束
返回已匹配的轨迹集合M和未匹配到的检测框集合U
最后那段啥意思？IOU匹配怎么进行的？

2.4 深度外观描述符

翻译

通过使用简单的最近邻查询而不需要额外的度量学习，我们的方法的成功应用需要在实际的在线跟踪应用之前对具有良好辨别力的特征嵌入进行离线训练。为此，我们采用了一个在大规模人员重新识别数据集 [21] 上进行训练的 CNN，该数据集包含 1,261 名行人的超过 1,100,000 张图像，使其非常适合在人员跟踪环境中进行深度度量学习。

我们网络的 CNN 架构如表 1 所示。总之，我们采用了一个宽残差网络 [22]，其中有两个卷积层，后面跟着六个残差块。维度 128 的全局特征图在密集层 10 中计算。最后一批和 L2 归一化将特征投影到单位超球面上，以与我们的余弦外观度量兼容。该网络总共有 2,800,864 个参数，在 Nvidia GeForce GTX 1050 移动 GPU 上，一次前向传递 32 个边界框大约需要 30 毫秒。因此，只要有现代 GPU 可用，该网络就非常适合在线跟踪。虽然我们训练过程的细节超出了本文的范围，但我们在 GitHub 存储库中提供了一个预训练模型以及可用于生成特征的脚本。

在这里插入图片描述

精读

外观特征描述符网络特点：

在线阶段使用最近邻查询，离线阶段需要训练网络使其能够提取具有良好辨别力的特征。
离线阶段训练集：1261名行人的110万张图像
网络结构：如图所示
只要有GPU可用，就可以进行在线跟踪。

3. 实验

翻译

我们在 MOT16 基准 [15] 上评估跟踪器的性能。该基准测试评估了七个具有挑战性的测试序列的跟踪性能，包括带有移动摄像头的前视图场景以及自上而下的监控设置。作为跟踪器的输入，我们依赖于 Yu 等人提供的检测。 [16]。他们在一系列公共和私人数据集上训练了 Faster RCNN，以提供出色的性能。为了公平比较，我们对相同的检测重新运行 SORT。

使用 λ = 0 和 Amax = 30 帧对测试序列进行评估。如 [16] 中所示，检测的阈值设置为置信度分数 0.3。我们方法的其余参数是在基准测试提供的单独训练序列上找到的。评估根据以下指标进行：

• 多目标跟踪精度（MOTA）：从误报、漏报和身份切换方面总结总体跟踪精度[23]。

• 多目标跟踪精度（MOTP）：根据地面实况和报告位置之间的边界框重叠来总结总体跟踪精度[23]。

• 大多数跟踪(MT)：在其生命周期的至少80% 内具有相同标签的地面实况轨道的百分比。

• 大部分丢失(ML)：在其生命周期的最多20% 内被跟踪的地面实况轨迹的百分比。

• 身份转换(ID)：报告的地面实况跟踪身份更改的次数。

• 碎片(FM)：轨道因丢失检测而中断的次数。

我们的评估结果如表 2 所示。我们的调整成功地减少了身份切换的数量。与 SORT 相比，ID 开关从 1423 个减少到 781 个。减少了大约 45%。同时，由于通过遮挡和遗漏来维护对象身份，因此轨道碎片略有增加。我们还看到主要跟踪的对象数量显着增加，而主要丢失的对象数量减少。总的来说，由于外观信息的整合，我们成功地通过较长的遮挡保持了身份。这也可以通过我们在补充材料中提供的跟踪输出的定性分析来看出。我们的跟踪器的示例输出如图 1 所示。

在这里插入图片描述

跟踪 MOT16 [15] 挑战的结果。我们与其他已发布的非标准检测方法进行比较。完整的结果表可以在挑战网站上找到。标有 * 的方法使用[16]提供的检测。

我们的方法也是其他在线跟踪框架的有力竞争对手。特别是，我们的方法在所有在线方法中返回最少数量的身份切换，同时保持有竞争力的 MOTA 分数、跟踪碎片和漏报。报告的跟踪准确性主要受到大量误报的影响。考虑到它们对 MOTA 分数的总体影响，对检测应用更大的置信度阈值可能会大幅提高我们算法的报告性能。然而，对跟踪输出的目视检查表明，这些误报主要是由静态场景几何形状下的零星检测器响应产生的。由于我们允许的最大轨道寿命相对较大，因此这些轨道更常见地连接到对象轨迹。同时，我们没有观察到轨道在误报之间频繁跳跃。相反，跟踪器通常会在报告的对象位置生成相对稳定的静止轨迹。

我们的实现以大约 20 Hz 的速度运行，大约一半的时间花在特征生成上。因此，只要有现代 GPU，系统就能保持计算效率并实时运行。