[论文翻译]ArTIST: Autoregressive Trajectory Inpainting and Scoring for Tracking (CVPR2020)

最新推荐文章于 2023-03-07 20:45:35 发布

页页读

最新推荐文章于 2023-03-07 20:45:35 发布

阅读量880

点赞数 1

分类专栏：多目标跟踪文章标签： MOT multi-tracking 多目标跟踪 CVPR2020 ArTIST

原文链接：https://arxiv.org/pdf/2004.07482v1.pdf

版权

多目标跟踪专栏收录该内容

17 篇文章 1 订阅

订阅专栏

ArTIST: Autoregressive Trajectory Inpainting and Scoring for Tracking (CVPR2020)

ARTIST：自动回归轨迹绘制与跟踪评分

摘要：

在线多目标跟踪(MOT)框架的核心组件之一是将新的检测与现有的tracklets关联起来，通常通过一个评分函数来实现。尽管MOT取得了很大的进步，但是设计一个可靠的评分函数仍然是一个挑战。在本文中，我们引入了一个概率自回归生成模型，通过直接测量小轨代表自然运动的可能性来对小轨建议进行评分。我们的模型的一个关键特性是，它能够在部分观察的情况下生成一个轨迹的多个可能的未来。这使得我们不仅可以对轨迹进行评分，还可以在检测器长时间无法检测到某些对象(例如，由于遮挡)的情况下，有效地维护现有的轨迹，通过对轨迹进行采样，来填补由于误检测而造成的缝隙。我们的实验证明了我们的方法在几个MOT基准数据集上评分和嵌入轨迹的有效性。此外，我们还展示了我们的生成模型的通用性，通过使用它来产生具有挑战性的人类运动预测任务的未来表征。
在这里插入图片描述
图1所示。艺术家(第一行)和SOTA Tracktor++7的定性比较。这些结果证明了我们的inpainting和计分策略在处理复杂和拥挤场景中的遮挡时的有效性。请注意，虽然Tracktor++使用了针对MOT挑战进行训练的人员重新识别模型，但它在跟踪过程中未能保留身份，并在遮挡之后分配新身份(左)或切换身份(右)。

1. Introduction

在视频中跟踪多个目标是许多计算机视觉应用程序成功的关键，如运动分析、自动驾驶、机器人导航和视觉监视。近年来，随着目标检测技术的发展，tracking-by-detection已成为多目标跟踪的一种实际方法;它包括首先检测单个帧中的目标，然后将这些检测与轨迹(称为轨迹条)联系起来。在这种背景下,现有的跟踪系统大致可以分为在线[36,43,58,52,21,70,99,50,93,19,7,20,85], （小轨在每个时间步长上生长）,和batch-based(又名离线)的[79,38,18,80,76,16,39,92,51]（
小轨是在处理整个序列之后计算的）,通常在多假设跟踪(MHT)(11日,38)框架。在本文中，我们开发了一个在线跟踪系统。

大多数检测跟踪框架的核心是一个评分功能，该功能的目的是在分配一个新的检测之后评估跟踪器的质量。定义这样一个评分函数的最常见的信息来源可能是外观。例如，受到行人再识别方法[35]的启发，依赖于单目标跟踪器的多目标跟踪算法[14,88,95,21,19,43][94,97,96,77,9]通常根据检测到的外观随时间的距离来设计评分功能。然而，在多个目标跟踪场景中，外观可能不太可靠，这不仅是因为姿态变化和遮挡可能会显著影响它，还因为多个目标可能看起来非常相似，例如在团队运动中。此外，这样的人员重新识别模块需要额外的训练，并被证明高度依赖于目标领域[29,22,26]。因此，许多方法[58、10、91、44、33、59、90、72、66、23]宁愿利用几何信息，也不受这些限制。为了提高鲁棒性，最近的研究[70,51,39,27]侧重于将外观与几何和社会信息相结合，使用递归神经网络(RNNs)学习评分函数。正如他们在各自的论文中所承认的那样，虽然训练结果模型是有效的，但是需要大量的手工数据准备，例如创建一个数据集来训练一个好与坏的二进制tracklet分类器[39]或仔细平衡数据[51]，以及详细的训练过程。

与以前的方法不同，在本文中，我们建议学习直接从跟踪数据中评分轨迹，而不需要额外的数据准备成本。为此，我们设计了一个概率自回归模型显式学习自然轨迹分布的回归模型。这允许我们在只给定一个边界框位置的序列时估计一个轨迹的可能性。因此，我们不仅可以在指定新的检测后计算小轨的质量，而且还可以通过对已学习分布的采样来弥补小轨丢失的几个检测。据我们所知，我们的方法构成了填补由于探测器故障而造成的空白的第一次尝试。这样做是通过对自然人类轨迹分布的采样，给定一个观察到的部分轨迹，就可以自然地画出缺失的探测。

总而言之，我们的贡献如下:
(1)我们引入了一种概率自回归生成模型，能够通过直接测量轨迹代表自然运动的可能性来可靠地对轨迹进行评分。
(2)由于我们的模型学习了自然人体运动的分布，因此它能够生成多个可信的未来轨迹表示，并在包含漏检的轨迹内绘制轨迹。
(3)我们证明了我们基于几何的评分函数可以超越它所训练的数据集，允许我们在不同的情况下部署它，即使新领域与训练领域有很大的不同。这是因为我们的评分函数有效地学习了自然运动的分布，而不依赖于外观、摄像机视角或特定的跟踪指标。
(4)根据MOT[7,86]的最新趋势，我们还演示了概率计分函数和tracklet inpainting方案在与[7]的边界盒细化头结合使用时的有效性，这使我们能够超越当前的技术水平。
(5)最后，我们评估了我们的模型s在具有挑战性的人类运动预测任务中生成似是而非的未来表征的能力，即预测给定一系列观察到的未来三维人体姿态。

我们的模型名为ArTIST，用于绘画中的自回归轨迹和跟踪评分，设计简单，并使用简单的负对数似然损失函数进行训练。

2 相关工作

在本节中，我们将重点讨论以前处理多对象跟踪任务的工作。简要回顾一下现有的人体运动预测方法，我们建议读者参考附录。

多目标跟踪在计算机视觉领域有着悠久的历史。随着该领域的大趋势，最近的跟踪系统都遵循一种深度学习的形式[17、39、78、99、20、7、85、51、76、70、58、67、47、82、27]。其中，与我们的方法最接近的是使用递归神经网络的方法，因此我们在这里重点关注它。最早的基于rnnbased的跟踪框架[58]旨在模仿贝叶斯滤波器的行为。为此，一个RNN被用来建模运动，另一个被用来计算小轨和新检测之间的关联向量。随着[58]在RNNs运动建模上的成功，提出了几种常见的运动仿真方法。在[70]中，三个LSTMs被用来模拟小轨的外观、运动和交互之间的时间依赖关系。在没有遮挡的情况下，使用单一的对象跟踪器跟踪场景中的不同对象。为了处理遮挡，这个单一的目标跟踪器被一个匈牙利算法[60]所取代，该算法基于LSTMs计算的分数/成本矩阵，将检测分配给tracklets。类似地，在[67]中，提出了一种基于三流lstm的网络，将姿态、外观和运动信息结合起来。在[47]中，Siamese LSTM被用来为场景中物体的位置和速度建模，以达到评分和分配的目的。在[82]中，Siamese LSTM在运动和外观上被用于为匈牙利算法提供分数，该算法合并了短轨，最初通过卡尔曼滤波获得。在[27]中，使用两个递归网络来维护外部和内部的记忆，以建模运动和外观特征，从而计算分配过程中使用的分数。

虽然以前的算法是在线工作的，但在离线跟踪管道中也使用了递归模型。例如，在[51]中，LSTMs用于在MHT框架中对小轨进行评分。为此，我们训练了一个利用外观、动作和社会信息的循环评分函数来优化IDF1评分代理[68]。正如作者所承认的那样，虽然这取得了很好的性能，但是需要手动调整参数、增加数据并仔细设计训练过程。在[39]中，LSTMs用于决定何时修剪MHT框架中的分支。这种方法称为双线性LSTMs，它使用一个修改后的LSTM单元，将外观和动作作为输入。然而，基于外观和基于动作的模型首先分别进行了预训练。当学习较长范围依赖关系时，LSTM单元处理外观信息的方式被证明对检测的质量很敏感。

通常，大多数性能最好的方法都使用外观信息[7、69、20、85、51、70、39、99、50]。然而，为了获得外观的最佳效果，需要在每个目标数据集上重新培训/微调外观模型。这限制了这些方法对新数据集的适用性。此外，在诸如MOT17[57]这样的数据集中，所有的测试序列在训练序列中都有一个相似的对应序列，这大大简化了基于外观的模型任务，但并没有反映现实。

与这些方法不同，ArTIST仅利用几何信息进行训练，而不依赖于目标数据集的外观。事实上,将在我们的实验中,ArTIST甚至不需要看到目标数据集的几何信息,因为它只使用这些信息来学习一个分布在自然人类的运动,可以实现与任何年检数据集覆盖足够多样的场景,如动/静态照相机、摄像机视点不同,拥挤的场面。此外,相比之前的方法,使用多个流来处理不同形式(39岁,70年,27日,67年),操纵训练数据[39],或设计数据敏感和复杂的损失函数[51],我们的模型依赖于一个非常简单的周期性网络体系结构与一个简单的负对数似损失函数,可以直接在任何跟踪训练数据集没有任何数据操作或增加。

注意，许多方法，如Social LSTM[1]和Social GAN[32]，利用生成模型来编码人群运动的社会行为。由于他们专注于社会信息的建模，这些方法通常不能与MOT方法相比，因此超出了这项工作的范围。

3. 提出的方法

我们解决了一个场景中多个目标的在线跟踪问题。我们的方法依赖于每个时间段的两个主要步骤:对检测与现有小轨的匹配程度进行评分，并将检测分配给小轨。
下面，我们首先描述我们的整体跟踪pipeline。然后，我们深入研究评分功能和分配策略的细节。

3.1 Multiple Object Tracking Pipeline

与许多其他在线跟踪系统一样，我们遵循按 tracking-by-detection 的范例[5]。让我们考虑一段T帧的视频，其中，对于每一帧，我们都有一组检测，这些检测是由fast - rcnn[30]、DPM[28]或SDP计算得到的[89]。这就得到了整个视频的整体检测集，D(1:T)= {D1, D2，…，DT)，其中DT = {dt1，…， dtn}为t时刻所有检测s1的集合（实际上，n在不同的时间t上是不同的，为了简化符号，我们忽略了这个相依性），其中dti属于R4，即，左上角包围框角的2D坐标(x, y)，宽度w，高度h。我们初始化第一帧轨迹T，检测到第一帧D1 = {d11，…,d1n}。从第二个时间步长到视频结束，目标是通过将新的检测分配到相应的小轨来扩展小轨。在整个视频中，可以创建新的tracklets，并将其添加到tracklets T集合中，现有的tracklets可以被终止，并从T中删除。

为了在t时刻生成tracklet Tj，我们通过将检测附加到Tj来为每个新检测计算tracklet建议Tij，并在我们的评分模型下计算每个建议的可能性。我们计算t时刻集合T中所有小轨的概率，然后利用匈牙利算法[60]求解线性规划，将检测分配给小轨。作为这种线性分配的结果，一些检测将分配到一些轨道。其他检测可能不分配给任何小轨，因此可以作为新的小轨的起点。相反，有些小轨可能不被分配任何检测，如果他们保持一定时期内未分配，这可能导致他们的终止。

考虑到MOT Pipeline，在本节的其余部分中，我们将描述ArTIST架构，该架构允许我们对每个tracklet提案进行评分，并在检测器由于(例如，遮挡或运动模糊)故障而导致的tracklet inpaint。

3.2 ArTIST Architectrue

ArTIST是一种概率自回归生成模型，旨在明确地了解自然曲目的分布。作为一个估计值，ArTIST能够确定每个小轨的可能性。作为一种生成模型，ArTIST能够通过对每一时刻的估计分布进行多项抽样来生成一个轨迹的多个似是而非的连续。

自回归框架中小轨 Tj的概率定义为
在这里插入图片描述

图2所示。ArTIST的框架。(左)ArTIST依靠一个反复出现的残余架构来表现运动速度。(中间)给定t时刻的运动速度表示，ArTIST估计下一个时刻的分布(即， t + 1时刻)包围框位置。(右)估计的分布,可以生成一个新的边界框速度 $(\delta x^*_{t+1}, \delta y^*_{t+1}, \delta w^*_{t+1}, \delta h^*_{t+1})$ 通过抽样(蓝色恒星分布)的分布,或评估发现的可能性边界框下的模型。

其中，bt为t时刻分配给Tj的边界框表示。为了建立模型，因为每个边界框都是由它的位置来表示的，它是一个连续的变量，我们可以考虑学习在给定前一帧位置的情况下，对下一帧的位置进行回溯。然而，回归并没有明确地提供在自然轨迹上的分布。此外，回归只能产生一个轨迹的单次确定性延拓，而不能反映人类运动的随机性，因为人类运动的多个延拓可能是等可能的。

为了解决这个问题，受到PixelRNN[61]的启发，我们提出对边界盒位置空间进行离散化。这使得我们可以将p(T)作为离散分布进行建模，将Eq. 1中的每个条件分布建模为一个具有softmax层的多项分布。但是，不像pixelrnn类的生成模型，通过数据无关的量化(如binning)来离散空间，我们提出通过对运动速度进行聚类来定义一组数据相关的离散值，即,δy,δx,δw,δh连续帧之间,宽度和高度规范化的相应的帧。这使得我们的输出空间移位和比例不变。然后我们将离散运动类定义为聚类中心。在实际应用中，我们使用非参数K -均值聚类算法来获得K个聚类。

我们的ArTIST架构如图2所示。艺术家依靠反复出现的残余建筑来表现运动速度。在每个时间步,需要运动速度作为输入由 $\Delta = (\delta x_t, \delta y_t, \delta w_t, \delta h_t)$ 。给定这个输入和在最后一个时间步 $z_{t-1}$ 中计算的隐藏状态，然后预测t + 1时刻的运动速度分布，即， $p(\Delta_{t+1} | z_{t-1}, \Delta t)$ 。这与公式1中的定义相匹配，因为 $z_t$ 包含了所有以前的时间步长的信息。

在这里插入图片描述

图3所示。与艺术家评分曲目。为了将t + 1时刻提供的每个探测(右图)分配到一个轨迹let，我们计算每个tracklet 下一个边界框的概率分布 $T_1, ...,T_j$ ，如图所示。然后，针对每个tracklet，计算每次检测的负对数似然，并将tracklet Tj模型下一个检测 $d_i$ 的负对数似然作为分配 $d_i$ 给Tj的代价。然后，匈牙利算法将得到的成本矩阵(中间)作为输入，并返回一个赋值。这里，蓝色框表示d4是T1的最佳匹配，因此分配成本最低。红色方框显示，d6是一个错误检测，导致所有曲目的高分配成本。

训练 ArTIST 只需要一个跟踪数据集的可用性，我们利用单独的轨迹，而不同时考虑场景中的多个轨迹。数据集中的每条轨迹都是由一系列边界框定义的，由相应帧的宽度和高度归一化，我们从中提取速度 $\{\Delta.\}$ 。由于我们的目标只是估计一个概率分布超过边界框的位置在下一次的时间步，我们训练我们的模型与一个简单的负对数似然损失函数。从估计的分布中，我们既可以测量给定检测边界框的小轨的可能性，也可以绘制小轨来填补缺失检测造成的空白。我们将在下面讨论这两个场景。

Tracklet得分。为了评估t时刻的检测是否可能是小轨迹的延续，我们将现有小轨迹对应的运动速度序列输入给ArTIST，如图3所示。给定这个序列，该模型然后估计边界框在t时刻位置上的概率分布。然后，我们将给定估计分布的观测检测的可能性作为轨迹检测对的评分。具体地说，我们计算与前一个观察值相关的任何检测值(如果前一个时间步长被inpainted了，则计算inpainted边界框)。然后我们把最接近这个质心的概率估计为似然。在实践中，我们假设边界框参数是独立的，即。,δyδxδw,δh。因此，我们有四组集群，因此在每个时间步估计有四个概率分布。
然后我们计算一个边界框的概率作为各部分概率的乘积，也就是说，

在这里插入图片描述

实际上，我们是在log空间里做的，对概率的log求和。

Tracklet修补。在现实世界中，一些帧的检测失败是很常见的，例如，遮挡或运动模糊。这样的故障使得未来检测与小轨之间的联系复杂化，从而可能导致错误的小轨终止。我们的方法克服了这一点，通过内涂轨道，其中没有检测是可用的。让我们考虑这样的场景:在过去的几帧中，tracklet没有被分配任何检测。我们现在试图检查一个新的检测在当前的时间步是否属于它。为了让我们的模型计算新观察值的可能性，我们需要访问之前的时间步长之前的完整边界框序列。为此，我们使用我们的模型来绘制缺失的观测结果。具体来说，由于ArTIST每次都要估计未来边界框位置的分布，如果给定时间内没有为tracklet分配边界框，那么我们可以从上一个时间步长估计的分布中抽取一个样本。采样实际上可以递归地进行，以创建完整的观察序列，并在缺少的边界框中添加内容，这反过来又允许我们进行新的检测。

为了说明运动本质上是随机的这一事实，特别是对人类而言，我们从估计分布中抽取S个候选子序列进行内画，得到多个可信的内画轨迹。由于艺术家完全依赖于几何信息，在自己的，它不能估计哪些S画的选项是有效的。为此，我们使用了tracklet拒绝方案，它允许我们做出一个更可靠的决定，即内涂的tracklet不会偏离它的实际方向太多。我们详细阐述了我们的小轨拒绝方案如下。

Tracklet拒绝方案。如上所述，当探测器在几帧内未能检测到一个目标时，我们的模型能够对缺失的观测结果进行补绘。我们的模型还考虑了人体运动的随机性，从而产生了多个似是而非的inpainting候选项。为了选择其中一个候选对象，如果有一个候选对象需要选择，我们计算最后一个生成的边界框的交集(IOU)，其中包含场景中所有的探测结果。该模型然后选择借据最高的候选人，如果它超过了一个阈值。但是，在某些情况下，一个候选对象最后生成的边界框可能与错误检测或另一个对象的检测重叠，即，属于不同的轨道。为了解决这些含糊不清的问题，我们继续预测tT RS帧的所有候选框。然后我们计算IOU，不仅检测当前帧，还检测前面的tT RS帧。艺术家然后选择候选人与最大的欠条和。这使我们可以忽略与错误检测或另一个移动方向不同的对象检测匹配的候选对象。然而，这不足以消除所有情况的歧义，例如，属于其他轨道的探测，这些轨道离我们很近，并且向同一个方向移动。我们在下面的作业策略中讨论这些情况。请注意，在实践中，我们使用小的 $t_{TRS}$ ，例如2或3帧，因此我们的方法仍然可以被认为是在线跟踪。附录中的图4给出了我们的tracklet拒绝方案的更详细的说明。

3.3 分配

为了在每个时间步长将探测分配给小轨，我们使用匈牙利算法找到的线性分配。匈牙利的方法依赖于成本矩阵C，存储分配每个检测到每个tracklet的成本。在我们的例子中，成本是ArTIST计算的负对数概率。我们用 $C_{ij}=log p(\langle d_i, T_j \rangle)$ 表示将检测i分配给tracklet j的负的log-likelihood。
匈牙利算法通过求解 $A^* = arg min_A \sum_{i,j}C_{ij}A_{ij}$ 来返回相关轨迹检测对的索引，其中 $\in[0,1]^{NxM}$ 为赋值概率矩阵，N为检测次数，M为小轨数。这个矩阵满足约束条件 $\sum_jA_{ij}=1$ 和 $\sum_iA_{ij}=1, \forall j$ 。

在实践中，考虑到我们对自己绘制的轨迹不太自信的事实，我们运行了两次匈牙利算法。首先，只使用在前一时间步的分数是通过实际检测得到的小轨;第二，使用剩余的轨迹通过inpaint和未分配的检测得到。

4. 实验

在这一部分中，我们对ArTIST的不同方面进行了实证评价，并与现有的方法进行了比较。重要的是，为了显示我们的方法的通用性，我们不依赖于任何目标跟踪数据集来训练ArTIST。相反，我们使用的是PathTrack数据集[53]，它是最大的可公开使用的多个对象跟踪数据集之一，包含720个序列中的15,000多个轨迹。在我们的实验中，加粗的数字表示最好的结果，下划线的数字表示次好结果。我们在附录中提供了我们的方法的实现细节。

数据集。我们使用了多对象跟踪基准测试MOTChallenge3和JRDB[55]。MOTChallenge由几个具有挑战性的行人跟踪序列组成，这些序列使用移动和固定摄像机从不同的角度以不同的帧速率捕捉场景。我们报告了这一挑战的三个基准测试的结果:2D MOT2015[44]、MOT16[57]和MOT17[57]。MOT17包含7对具有相似统计的训练-测试序列对。以DPM[28]、Faster R-CNN[30]和SDP[89]三组公共检测为基准。MOT16序列与MOT17序列相似，仅通过DPM进行检测。2D MOT2015包含11个训练序列和11个测试序列。对于每个测试序列，训练数据中都有一个具有大致相似统计信息的序列。这个基准测试为所有的训练和测试序列提供了ACF[24]检测。在我们所有的实验中，我们使用数据集提供的公共检测。由于ArTIST在训练过程中不依赖于上述数据集，我们使用公共Faster-RCNN检测对MOT17训练集进行消融研究。JRDB是最近从社交移动机器人JackRabbot收集的数据集。数据集包含64分钟的多模态传感器数据，包括立体声圆柱360 RGB视频每秒15帧。这些序列是从传统的代表性不足的场景，如室内环境和行人区，从一个固定的和导航机器人平台。

评价指标。为了评估MOT方法，我们使用MOT准确性(MOTA)、IDF1评分(IDF1)、身份开关数量(IDs)、主要跟踪(MT)、主要丢失(ML)、假阳性(FP)和假阴性(FN)的标准度量[68,8]。附录中提供了关于这些度量的详细信息。

4.1 消融实验

在本节中，我们将评估ArTIST的不同组件。具体来说，我们评估了多项抽样、inpainting、tracklet拒绝和边界盒细化的效果。我们进一步评估了在绘画中我们的轨迹泛化对人类运动预测这一具有挑战性的任务的影响。在这些实验中，我们使用带有公共Faster-RCNN检测的MOT17训练集。对于每个实验，除了MOTA和IDF1这两个主要指标外，我们还提供并分析了最能传达实验直觉和信息的指标。对于人体运动预测，我们使用Human3.6M的数据集[37]作为标准误差度量，即，关节位移误差[54]。

修复的效果。大多数现有的追踪器的目标是降低FP。然而，他们往往忽略了FN的改进。我们观察到，如果一个跟踪器可以填补探测之间的空白，从而创建更长的轨迹，那么FN可以大大减少。在我们的方法中，这可以通过绘画中的轨迹来实现。在表1(a)中，我们比较了有和没有inpainting tracklets的ArTIST。从表中可以看出，FN与MOTA之间存在直接的相关性。这是因为FN比FP多很多，所以对MOTA的影响更大。这在某些情况下很重要，比如在自动驾驶中，即使物体被遮挡，也需要跟踪它们。正如[45]所承认的，在监视场景中，通常更重要的是拥有非常少的FN，这样就不会遗漏任何人员，而少数FP则可以由循环中的人员轻松管理。我们观察到，虽然内画的轨迹类似于自然的人类运动，但并不是所有内画的盒子都正确地匹配地面真相，这导致了FP和id的增加。然而，由于FN通常比FP和IDs高2到3个数量级，我们可以看到跟踪方面的整体改进。请注意，ArTIST与inpainting是有能力保持正确的轨道更长的时间，导致更高的MT和更低的ML。
在这里插入图片描述

多项式抽样的影响。如3.2节所述，ArTIST作为一种生成模型，可以从估计分布中通过多项抽样生成一个tracklet的多个似是而非的连续。模型生成的样本越多，找到最接近地面真实的运动的机会就越大。在表1(b)中，我们比较了一个忽略人体运动随机性的模型和一个考虑到随机性的模型，前者贪婪地产生了一个inpainting轨迹的单一延续。注意，使用更多的inpaint选项，模型可以获得更好的性能。然而，大量的样本可能会在系统中引入模糊性，导致跟踪性能下降。为了处理这个问题，我们使用tracklet拒绝策略来消除这些场景的歧义，其结果在表1(b)的第三行中提供。通过本实验，我们观察到，对于静态相机捕获的序列，以及对于观测时间相对较长的小轨，Top-1抽样的表现相当好，几乎与多项抽样相当。这是因为，通过长时间的观察，艺术家可以捕捉运动模式，并可靠地预测未来。然而，当涉及到移动相机或新诞生的小轨(观察时间相对较短)时，多项抽样(带有小轨拒绝)会带来更可靠的跟踪。

包围框细化的效果。许多最近的跟踪技术[7,86,51]改进了探测器计算的边界框。特别是，[7,86]使用更快的R-CNN[30]与ResNet-101[34]和特征金字塔网络(Feature Pyramid Networks, FPN)[48]训练的行人检测数据集上的MOT17Det[57]行人检测，以完善公共检测提供的MOTChallenge。注意，正如[7]所承认的，为了与使用公共检测的方法进行公平的比较，新的轨迹仍然是从公共检测边界框初始化的，因此细化并不用于检测新的边界框。实际上，使用边界盒回归器和分类器分别获得细化的分数和边界盒坐标。在这个实验中，我们评估了以下两个方面。首先，在表1(c, top)中，我们展示了最近检测改进的趋势是如何在我们的ArTIST框架中产生更好的跟踪质量的;其次，在表1(c，底部)中，我们用ArTIST* 表示的ArTIST与使用这种细分策略[7]的最先进的方法进行了比较。特别地，Tracktor[7]利用检测器的回归头来执行人员边界框的时间重组。表1(c，底部)比较了[7]和ArTIST* 的不同设置。这些结果清楚地证明了我们的概率自回归绘图和评分函数的有效性。IDF1(+7.7%)、MOTA(+0.9%)、ID switch(-1,492)和MT(+4%)的巨大改进表明，我们的模型能够在长时间的遮挡和拥挤的场景中保存身份。我们还将我们的方法与Tracktor++进行了比较，后者使用了额外的模块，如摄像机运动补偿(CMC)和人员重新识别，以处理跟踪过程中的遮挡和移动摄像机。请注意，人员重新标识高度依赖于域[29,22,26]，需要对目标域进行微调才能实现合理的性能。相比之下，如图1所示，ArTIST* 仅依靠几何信息进行inpainting和score，几乎在所有MOT指标上都优于Tracktor++，而不需要进行这样的微调。
在这里插入图片描述

评价我们绘画的概括性。为了进一步评估艺术家生成可能的未来表现的能力，我们解决了3D人体运动预测的问题，其中3D注释是通过运动捕捉(MoCap)获得的。这里的目标是通过观察过去的运动来产生未来的人类运动。我们在Human3.6M上评估我们的方法，遵循培训和评估的标准设置[56、46、54]。具体来说，我们遵循了目前最先进的人体运动预测模型[54]的观察，并对我们的模型进行了三维关节位置的训练。不像在跟踪中我们假设边界框参数之间是独立的，这里我们认为所有的关节都是相互关联的。因此，我们将整个姿态速度(在96D中，即， 32个关节在3D)成1024个集群。这意味着我们只考虑两帧之间1024种可能的转换。虽然这似乎不能代表人类可以在两个连续的时间瞬间之间自由移动，但与现有模型相比，ArTIST获得了非常好的性能，如表2所示。请注意，虽然ArTIST并不是专门为人类运动预测而设计的(相对于其他为这个特定任务设计复杂架构的作品[56、46、54])，但是在这个具有挑战性的任务中，几乎不做任何修改(除了输入表示)地使用它就可以获得最佳/次优结果。

表3。结果在不同的MOTChallenge基准数据集，无论是在一个在线或离线的框架。对于每个测试集:(顶部)只利用几何特征进行跟踪的方法。(下图)另外利用外观信息进行跟踪的方法。
在这里插入图片描述

4.2 最先进水平的比较

在本节中，我们将我们的方法与现有的MOT方法在MOTChallenge和JRDB数据集上进行比较。

结果MOTChallenge。我们ArTIST与现有的方法比较,我们使用几何信息向公众提供的检测标准(顶部表3)每个MOTChallenge数据集的一部分。我们也比较艺术家,如4.1节中所讨论的,与方法,进一步利用外观信息(下表3)每个MOTChallenge数据集的一部分。为了完整性,我们认为在线和离线方法,然而,只有在线方法(表3中突出显示的行)可以直接与ArTIST和ArTIST* 进行比较。这些数据集提供的检测是噪声和低质量的(例如，ACF检测在2D MOT2015)。这往往导致相当数量的错误/误检，从而大大影响了通过检测跟踪方法的质量。然而，从表3中可以看出，即使是使用了复杂的损失函数[51]或近似方法[33]，与基于几何的在线和离线方法相比，art方法虽然简单，但仍取得了较好的效果。重要的是，尽管我们的方法不依赖于MOTChallenge训练数据，而不是一些基线，如[51,58]，但它的性能远远优于这些方法。注意，在表3 (MOT2017)中，PHD-GM[71]是一个运动预测模型，其良好的性能是由于它使用了额外的手工特征，例如Lucas-Kanade光流[13]的高特征跟踪[75]和金字塔，来估计相机/背景运动。在将ArTIST* 与基于外观的最先进的跟踪方法进行比较时，我们观察到，包括我们的方法在内，遵循Tracktor的细化方法[7,86]的方法取得了比其他技术更好的性能。请注意，表3中几乎所有最先进的方法都利用一种形式的人员重新标识来更好地保存tracklet标识，而不是一个序列。然而，使用这样的模块需要额外的培训，并被证明高度依赖于目标领域[29,22,26]。由于我们的得分概率几何投影函数和艺术家填补缺失的检测能力,艺术家在保留tracklet * 实现性能优越的身份没有额外的人鉴定模块和额外的培训,可以在更低的ID开关,更高的莫塔,IDF1,太注意,低FN的ArTIST* 验证的事实不仅边界框编码自然和有效的运动。
结果JRDB。我们也在最近的JRDB 2D追踪挑战[55]上评估了我们的方法。该数据集包含非常具有挑战性的场景，这些场景使用截然不同的视角(从机器人的视角)来描述高度拥挤的场景。在这个实验中，我们使用了challenge提供的检测。表4比较了ArTIST与challenge leaderboard4上公开提供的现有方法。DeepSort[84]和JRMOT2D[74]都利用外观信息进行跟踪。此外，JRMOT2D建立在Aligned-ReID[98]框架上，该框架在JRDB训练集上进行训练。与这些方法不同的是，ArTIST只在PathTrack上进行训练，只依靠几何信息进行跟踪，从而获得最佳的MOTA性能。

5. 结论

介绍了一种基于自然运动概率自回归生成模型的在线MOT框架。具体来说，我们使用这个模型来为检测赋值的小轨进行评分，并在小轨的inpaint中考虑缺失检测。我们在MOTChallenge基准测试和JRDB数据集上的结果显示了依赖于运动的概率表示的好处。值得注意的是，如果没有专门针对这些基准测试进行培训，我们的框架就会产生最先进的性能。

页页读

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
3
评论
[论文翻译]ArTIST: Autoregressive Trajectory Inpainting and Scoring for Tracking (CVPR2020)

ArTIST: Autoregressive Trajectory Inpainting and Scoring for Tracking (CVPR2020)ARTIST：自动回归轨迹绘制与跟踪评分摘要：在线多目标跟踪(MOT)框架的核心组件之一是将新的检测与现有的tracklets关联起来，通常通过一个评分函数来实现。尽管MOT取得了很大的进步，但是设计一个可靠的评分函数仍然是一个挑...
复制链接

扫一扫