SIMPLE ONLINE AND REALTIME TRACKING WITH A DEEP ASSOCIATION METRIC

SIMPLE ONLINE AND REALTIME TRACKING WITH A DEEP ASSOCIATION METRIC

(简单的在线和实时跟踪与深度关联度量)

摘要

简单的在线和实时跟踪(SORT)是一种实用的多目标跟踪方法,重点关注简单、有效的算法。在本文中,我们整合了外观信息来提高SORT的性能。由于这种扩展,我们能够通过更长的遮挡周期来跟踪对象,有效地减少了身份转变的数量。本着原始框架的精神,我们将大部分的计算复杂性放在一个离线的训练前阶段,在那里我们在一个大规模的人重新识别数据集上学习一个深度关联度量。在在线应用过程中,我们在视觉外观空间中的最近邻查询建立测量跟踪关联。实验评估表明,我们的扩展减少了45%的身份开关的数量,在高帧率下实现了整体竞争性能。

索引术语------计算机视觉、多对象跟踪、数据关联

1. 介绍

由于目标检测的进展,跟踪检测已成为多目标跟踪的领先范式。在这个范例中,对象轨迹通常出现在一个同时处理整个视频批次的全局优化问题中。例如,流网络公式和概率图形模型已经成为这种类型的流行框架。然而,由于批处理,这些方法不适用于每个时间段目标标识必须可用的在线场景。更传统的方法是多重假设跟踪(MHT)和联合概率数据关联滤波器(JPDAF)。这些方法在逐帧的基础上执行数据关联。在JPDAF中,一个单一状态假设是通过对个体测量值进行加权而产生的。在MHT中,所有可能的假设都被跟踪,但必须应用剪枝方案来实现计算的可处理性。这两种方法最近在检测跟踪场景中被重新访问,并显示出了有希望的结果。然而,这些方法的性能增加了计算和实现的复杂性。

Simple online and realtime tracking(SORT)是一种更简单的框架,它使用匈牙利方法在图像空间中执行卡尔曼滤波,并使用测量边界框重叠的关联度量进行逐帧数据关联。这种简单的方法在高帧率下取得了良好的性能。在MOT挑战数据集[13]上,具有最先进的人检测器的SORT[14]在标准检测上的排名平均要高于MHT。这不仅强调了对象检测器性能对整体跟踪结果的影响,而且从从业者的角度来看也是一个重要的见解。

在跟踪精度和准确度方面实现了整体良好的性能,SORT返回相对较多的身份转变。这是因为所使用的关联度量只有在状态估计的不确定性较低时才准确。因此,SORT在跟踪遮挡方面存在缺陷,因为它们通常出现在前视图摄像机场景中。我们通过用一个结合了运动和外观信息的更知情的度量来取代关联度量来克服这个问题。特别地,我们应用了一个卷积神经网络(CNN),它已经被训练来在一个大规模的人的再识别数据集上识别行人。通过对该网络的集成,我们提高了对遗漏和遮挡的鲁棒性,同时保持系统易于实现、高效和适用于在线场景。我们的代码和一个预先训练过的CNN模型被公开,以促进研究实验和实际应用程序开发

2. 具有深度关联度量的SORT

我们采用传统的单一假设跟踪方法,采用递归卡尔曼滤波和逐帧数据关联。在下一节中,我们将更详细地描述这个系统的核心组件。

2.1 轨迹处理和状态估计

轨迹处理和卡尔曼滤波框架与[12]中的原始公式基本相同。我们假设一个非常普遍的跟踪场景,其中相机是未校准的,我们没有自我运动的信息可用。虽然这些情况对过滤框架构成了挑战,但它是在最近的多个对象跟踪基准测试中考虑的最常见的设置。因此,我们的跟踪场景定义在八维状态空间(u,v,γ,h,˙x,˙y,˙γ,˙h)上,该空间包含边界框中心位置(u,v)、长宽比γ、高度h以及它们在图像坐标中各自的速度。我们使用一个具有恒速运动的标准卡尔曼滤波器和线性观测模型,其中我们将边界坐标(u,v,γ,h)作为对物体状态的直接观测。

对于每个轨道k,我们计算自上次成功的测量关联ak以来的帧数。这个计数器在卡尔曼滤波预测期间增加,当轨迹与测量相关联时重置为0。超过预定义的最大年龄Amax的轨迹被认为已经离开了场景,并从轨迹集中删除。对于每个不能与现有跟踪关联的检测,都将启动新的跟踪假设。这些新的轨道在它们的前三帧中被归类为试探性的。在此期间,我们期望在每个时间步长上都有一个成功的测量关联。在前三帧内没有成功地与度量相关联的轨迹将被删除。

2.2 分配问题

解决预测的卡尔曼状态与新到达的测量值之间的关联的一种传统方法是建立一个可以用匈牙利算法来解决的分配问题。在这个问题的公式中,我们通过结合两个适当的度量标准来整合运动和外观信息。

为了合并运动信息,我们使用了预测的卡尔曼状态和新到达的测量值之间的(平方)马氏距离:
在这里插入图片描述

其中,我们用(yi,Si)表示第i个轨道分布在测量空间中的投影,用dj表示第j个边界盒检测。马氏距离通过测量检测结果远离平均轨道位置的多少个标准差来考虑状态估计的不确定性。此外,使用这个度量,可以通过以逆χ2分布计算的95%置信区间阈值来排除不太可能的关联。如果第i个轨迹和第j个检测之间的关联是允许的,则我们使用评估为1的指标来表示该决策。
在这里插入图片描述

对于我们的四维测量空间,相应的马氏阈值为t(1)=9.4877。

当运动不确定性较低时,马氏距离是一个合适的关联度量,但在我们的图像空间问题公式中,从卡尔曼滤波框架获得的预测状态分布只提供了物体位置的粗略估计。特别是,未计算的摄像机运动可以在图像平面上引入快速位移,使马氏距离成为通过遮挡跟踪的一个相当未知的度量。因此,我们在分配问题中集成了第二个度量。 For each bounding box detection dj we compute an appearance descriptor rj with k rjk = 1. Further, we keep a gallery Rk = {r(i) k }Lk k=1 of the last Lk = 100 associated appearance descriptors for each track k.然后,我们的第二个度量测量了外观空间中第i条轨道和第j个检测之间的最小余弦距离***(此处可参考文末链接)***:
在这里插入图片描述

再次,我们引入了一个二进制变量,以指示根据该度量,关联是否可容许,并在分离速率训练数据集上找到该指标的合适阈值。在实践中,我们应用一个预先训练过的CNN来计算边界框外观描述符。该网络的体系结构见第2.4节。
在这里插入图片描述

结合起来,这两个指标通过服务于分配问题的不同方面而相互补充。一方面,马氏距离提供了关于基于运动的可能的物体位置的信息,这对短期预测特别有用。另一方面,余弦距离考虑外观信息,对长时间遮挡后恢复身份特别有用,当运动是较少的鉴别。为了构建关联问题,我们使用一个加权和,如果关联在两个指标的选通区域内,我们称其为可容许关联:

在这里插入图片描述
在这里插入图片描述


Listing 1 Matching Cascade


Input: Track indices T = {1, . . . , N*}, Detection indices D = {1, . . . , M**}, Maximum age Amax

1: Compute cost matrix C = [c**i,j ] using Eq. 5

2: Compute gate matrix B = [b**i,j ] using Eq. 6

3: Initialize set of matches M ← ∅

4: Initialize set of unmatched detections U ← D

5: for n ∈ {1, . . . , Amax*}* do

6: Select tracks by age T**n ← {i ∈ T | *a*i = n*}*

7: [x**i,j ] min cost matching(C*,* Tn, U)

8: M ← M ∪ {(i, j) | b**i,j · x**i,j > 0}*

9: U ← U \ {j | P i *bi,j* · *x*i,j* > 0*}*

10: end for

11: return M*,* U


每个度量对联合关联成本的影响可以通过超参数λ来控制。在我们的实验中,我们发现,当有大量的摄像机运动时,设置λ=0是一个合理的选择。在此设置中,在关联成本术语中只使用外观信息。然而,马氏门仍然被用于忽略基于卡尔曼滤波器推断出的可能的对象位置的不可行的分配。

2.3 匹配级联

我们没有引入解决全局分配问题中的度量到跟踪关联,而是引入了解决一系列子问题的级联。为了激发这种方法,请考虑以下情况:当一个物体被遮挡较长时间时,随后的卡尔曼滤波预测增加了与物体位置相关的不确定性。因此,概率质量在状态空间中扩散,观测似然值的峰值减小。直观地说,关联度量应该通过增加测量到轨道的距离来解释概率质量的扩散。与直觉相反,当两条轨道竞争同一检测时,马氏距离倾向于更大的不确定性,因为它有效地减少了任何检测对投影轨道均值的标准差距离。这是一种不希望出现的行为,因为它可能导致增加的轨道碎片和不稳定的轨道。因此,我们引入了一个匹配级联,优先考虑更常见的对象,以编码关联可能性中概率扩散的概念。

清单1概述了我们的匹配算法。作为输入,我们提供轨道T和检测D指数以及最大年龄Amax。在第1行和第2行中,我们计算了关联成本矩阵和容许关联矩阵。然后我们迭代轨道年龄n来解决年龄增长轨迹的线性分配问题。在第6行中,我们选择了与最后n帧中没有检测关联的轨道Tn的子集。在第7行,我们求解了Tn中轨迹和不匹配检测U之间的线性分配。

在这里插入图片描述

​ 表1:CNN架构的概述。最后一批和`2标准化将特性投射到单元超球体上。

在第8行和第9行中,我们更新了匹配和不匹配的检测集,并在第11行完成后返回。请注意,这种匹配的级联优先考虑了较小年龄的轨迹,即最近看到的轨迹。

在最后的匹配阶段,我们按照原始SORT算法[12]提出的未确认和不匹配的交集。这有助于解释突然的外观变化,例如,由于静态场景几何图形的部分遮挡,并增强对错误初始化的鲁棒性。

2.4 深度外观描述符

通过使用简单的最近邻查询,而不需要额外的度量学习,我们的方法的成功应用需要在实际的在线跟踪应用之前,离线训练一个良好的鉴别特征嵌入。为此,我们使用了一个CNN,该数据集在一个大规模的人再识别数据集[21]上进行了训练,该数据集包含超过110万张行人的图像,这使得它非常适合于人跟踪环境中的深度度量学习。

我们的网络的CNN体系结构如表1所示。总之,我们采用了一个宽的残余网络[22],其中有两个卷积层,然后是6个残余块。在第10层中计算维数128的全局构造图。最后一批和`2标准化将特性投影到单元超球体上,以与我们的余弦外观度量兼容。总的来说,该网络有2,800,864个参数,在英伟达GeForce GTX 1050移动GPU上,30个边界盒的前通大约需要30 ms。因此,如果有一个现代的GPU,这个网络非常适合在线跟踪。虽然我们培训程序的细节不在本文讨论范围内.本文中,我们在GitHub存储库中提供了一个预训练的模型,以及一个可用于生成功能的脚本。

3 实验

我们评估了MOT16基准[15]上的性能。这个基准测试评估了7个具有挑战性的测试序列的跟踪性能,包括带有移动摄像机的正面视图场景以及自上而下的监视设置。作为我们的追踪器的输入,我们依赖于Yu等人[16]提供的检测。他们在公共和私有数据集的集合上训练了一个更快的RCNN,以提供出色的性能。为了进行公平的比较,我们对相同的检测结果重新运行了SORT。

使用λ=0和Amax=30帧对测试序列进行评估。与[16]一样,检测的阈值为置信值为0.3。我们的方法的剩余参数已经在由基准提供的单独的训练序列上找到。根据以下指标进行评估:

  • 多目标跟踪精度(MOTA):在假阳性、假阴性和身份转变[23]方面的总体跟踪精度的总结。
  • 多目标跟踪精度(MOTP):根据地面真实值和报告的位置[23]之间的边界框重叠而进行的总体跟踪精度的总结。
  • 主要跟踪(MT):在至少80%的寿命中具有相同标签的地面真相跟踪的百分比。
  • 大部分丢失(ML):跟踪最多20%寿命的地面真相跟踪的百分比。
  • 身份开关(ID):报告的地面真实跟踪标识更改的次数。
  • 碎片化(FM):一个轨道被一个缺失的检测所中断的次数。

我们的评估结果如表2所示。我们的自适应成功地减少了身份开关的数量。与SORT相比,ID开关从1423减少到781。这是下降了大约45%。同时,由于通过遮挡和遗漏保持对象身份,轨道碎片略有增加。我们还看到,主要被跟踪的物体数量显著增加,而主要被丢失的物体数量显著减少。总的来说,由于外观信息的整合,我们成功地通过更长时间的遮挡保持了身份。这也可以通过我们在补充材料中提供的跟踪输出的定性分析来看出。图1显示了我们的跟踪器的一个示例性输出。

在这里插入图片描述

表2:对MOT16[15]挑战的跟踪结果。我们与其他已发表的非标准检测方法进行了比较。完整的结果表可以在挑战网站上找到。标记为*的方法使用由[16]提供的检测。

我们的方法也是其他在线跟踪框架的强大竞争对手。特别是,我们的方法返回了所有在线方法中最少的身份切换数量,同时保持了具有竞争力的MOTA分数、跟踪碎片和假否定。报告的跟踪准确性大多受到大量的误报的损害。考虑到它们对MOTA评分的总体影响,对检测应用更大的置信阈值可能会很大程度地提高我们算法的报告性能。然而,对跟踪输出的视觉检查显示,这些假阳性大多是由静态场景几何中的零星探测器响应产生的。由于我们相对较大的最大允许轨道年龄,这些更常连接到物体的轨迹。同时,我们没有观察到轨道经常在假警报之间跳跃。相反,跟踪器通常在报告的对象位置生成相对稳定、静止的轨迹。

我们的实现运行在大约20hz的频率下,大约有一半的时间花在特征生成上。因此,给定一个现代的GPU,该系统将保持计算效率和实时运行。

4 总结

我们提出了对SORT的一个扩展,它通过一个预先训练过的关联度量来整合外观信息。由于这种扩展,我们能够跟踪更长时间的遮挡,使SORT成为最先进的在线跟踪算法的强大竞争对手。然而,该算法仍然易于实现和实时运行。

(仅供翻译参考,个人觉得不错的一篇分析文章,尤其对文章中涉及的公式有说明,链接在此https://blog.csdn.net/Yemiekai/article/details/118631565)

跟踪算法的强大竞争对手。然而,该算法仍然易于实现和实时运行。

(仅供翻译参考,个人觉得不错的一篇分析文章,尤其对文章中涉及的公式有说明,链接在此

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

想学摄影的IT男

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值