SIMPLE ONLINE AND REALTIME TRACKING

SIMPLE ONLINE AND REALTIME TRACKING

摘要

本文探讨了一种实用的多对象跟踪方法,其主要重点是更有效地关联对象用于在线和实时应用。为此,检测质量被确定为影响跟踪性能的一个关键因素,其中改变检测器可以提高跟踪高达18.9%。尽管只使用了一个熟悉的技术的基本组合,如卡尔曼滤波器和匈牙利算法的跟踪组件,这种方法实现了与最先进的在线跟踪器相当的精度。此外,由于我们的跟踪方法的简单性,跟踪器的更新速度为260Hz,比其他最先进的跟踪器快20倍以上。

索引术语------计算机视觉、多目标跟踪、检测、数据关联

1. 介绍

本文针对多目标跟踪(MOT)问题,提出了一个跟踪-检测框架的精益实现,其中每一帧检测对象并表示为边界框。与许多基于批处理的跟踪方法[1,2,3]相比,这项工作主要针对在线跟踪,其中只有从前一帧和当前帧的检测被呈现给跟踪器。此外,还强调了促进实时跟踪的效率,并促进自动驾驶汽车行人跟踪等应用的普及。

MOT问题可以看作是一个数据关联问题,其目的是关联视频序列中跨帧的检测。为了帮助数据关联过程,跟踪器使用各种方法来建模场景中物体的运动[1,4]和外观[5,3]。本文所采用的方法是通过对最近建立的视觉MOT基准[6]的观察来激发的。首先,成熟的数据关联技术正在复苏,包括多重假设跟踪(MHT)[7,3]和联合概率数据关联(JPDA)[2],它们占据了MOT基准的许多顶级位置。

其次,唯一一个没有使用聚合通道滤波器(ACF)的跟踪器也是排名第一的跟踪器,这表明检测质量可以阻碍其他追踪器。此外,精度和速度之间的权衡看起来相当明显,因为最精确的跟踪器的速度被认为对于实时应用来说太慢了(见图1)。随着传统数据关联技术在顶级在线和批处理跟踪器中的突出,以及顶级跟踪器使用的不同检测,这项工作探索了MOT有多简单以及它的表现有多好。在这里插入图片描述

图1。所提出的方法(SORT)与几个基线跟踪器[6]相关的基准性能。每个标记表示一个跟踪器的精度和速度,测量单位为每秒帧(FPS)[Hz],即越高越好。

与奥卡姆剃刀一致,在跟踪中忽略了检测组件之外的外观特征,只有边界框的位置和大小用于移动估计和数据关联。此外,短期和长期遮挡问题也被忽略,因为它们很少发生,并且它们的显式处理将不希望的复杂性引入跟踪框架。我们认为,将对象重新识别的形式纳入复杂性为跟踪框架增加了显著的开销——可能会限制它在实时应用程序中的使用。

这种设计理念与许多提出的视觉跟踪器形成了对比,这些跟踪器包含了无数的组件来处理各种边缘情况和检测错误。这项工作反而侧重于有效和可靠地处理常见的帧到帧的关联。我们的目标不是对检测错误进行鲁棒,而是利用视觉目标检测的最新进展来直接解决检测问题。这可以通过比较常见的ACF行人检测器[8]与最近的基于***卷积神经网络(CNN)***的检测器来证明。此外,采用两种经典但非常有效的方法,卡尔曼滤波和匈牙利方法,分别处理跟踪问题的运动预测和数据关联分量。这种最简化的跟踪公式有助于在线跟踪的效率和可靠性,见图1。在本文中,该方法仅适用于各种环境下的行人跟踪,但由于基于CNN的检测器的灵活性,自然可以推广到其他对象类。

本文的主要贡献是:

  • 我们在MOT的背景下利用了基于CNN的检测的能力。
  • 提出了一种基于卡尔曼滤波器和匈牙利算法的实用跟踪方法,并在最近的MOT基准上进行了评估。
  • 代码将是开源的,以帮助建立一个基线方法,用于研究实验和在防撞应用中的应用。

本文的组织结构如下:第二节对多目标跟踪领域的相关文献进行了简要的综述。第3节描述了所提出的精益跟踪框架,然后在第4节中演示了该框架在标准基准序列上的有效性。最后,第5节提供了学到结果的总结,并讨论了未来的改进。

2. 文献评论

传统上,MOT是使用多重假设跟踪(MHT)或联合概率数据关联(JPDA)过滤器来解决的,这可以在对象分配有很高的不确定性时延迟做出困难的决策。这些方法的组合复杂性在被跟踪对象的数量上呈指数级增长,这使得它们不适合用于高度动态环境中的实时应用程序。最近,Rezatofighi等人在visual MOT中重新研究了JPDA公式,目的是通过利用求解整数规划中的最新发展,有效逼近JPDA来解决组合复杂性问题。类似地,Kim等人为每个目标使用了一个外观模型来修剪MHT图,以达到最先进的性能。然而,这些方法仍然延迟了决策,这使它们不适合在线跟踪。

许多在线跟踪方法旨在通过在线学习建立单个对象本身的外观模型或全局模型。除了外观模型外,还经常结合运动来帮助将检测与轨迹关联起来。当只考虑建模为二部图匹配的一对一对应时,可以使用全局最优解,例如匈牙利算法。

Geiger等人[20]的方法在两阶段过程中使用匈牙利算法[15]。首先,轨迹图是通过将相邻帧之间的检测关联起来而形成的,其中几何图形和外观线索都被组合起来形成亲和矩阵。然后,这些轨迹相互关联,以桥接由遮挡引起的断裂轨迹,再次使用几何形状和外观线索。这种两步关联方法将该方法限制为批量计算。我们的方法受到了[20]的跟踪组件的启发,但是我们将关联简化为一个带有基本线索的单一阶段,如下一节所述。

3. 方法论

该方法包括检测、将目标状态传播到未来帧、将当前检测与现有对象关联起来以及管理被跟踪对象的生命周期等关键组成部分。

3.1 检测

为了利用基于CNN的检测的快速发展,我们使用了更快的区域CNN(FrRCNN)检测框架[13]。FrRCNN是一个由两个阶段组成的端到端框架。第一阶段提取特征并为第二阶段提出区域,然后对建议区域中的对象进行分类。该框架的优点是,参数在两个阶段之间共享,创建了一个有效的检测框架。此外,网络架构本身可以交换为任何设计,这使不同的架构能够快速地进行实验,以提高检测性能。

在这里,我们比较了FrRCNN提供的两种网络结构,即泽勒和费格斯(FrRCNN(ZF))和西蒙尼扬和齐瑟曼(FrRCNN(VGG16))的更深层次的结构。在这项工作中,我们应用FrRCNN的默认参数学习的帕斯卡VOC挑战。由于我们只对行人感兴趣,所以我们忽略了所有其他类,只将输出概率大于50%的人的检测结果传递给跟踪框架。

在我们的实验中,我们发现,当比较FrRCNN检测和ACF检测时,检测质量对跟踪性能有显著的影响。这可以通过应用于现有在线跟踪器MDP[12]和本文提出的跟踪器的序列验证集来演示。表1显示,最佳检测器(FrRCNN(VGG16))对MDP和该方法的跟踪精度都最高。
在这里插入图片描述

​ 表1。通过切换检测器组件进行的跟踪性能的比较。对[12]中列出的验证序列进行了评估。

3.2 评估模型

这里我们描述了对象模型,即用于传播目标的身份到下一帧的表示和运动模型。我们用一个独立于其他物体和相机运动的线性恒速模型来近似每个物体的帧间位移。每个目标的状态被建模为:
在这里插入图片描述

其中,u和v表示目标中心的水平和垂直像素位置,尺度s和r分别表示面积和目标边界框的高宽比。请注意,高宽比被认为是恒定的。当检测与目标相关联时,检测到的边界框用于更新目标状态,其中速度分量通过卡尔曼滤波框架[14]得到最优求解。如果没有检测结果与目标相关联,则可以简单地预测其状态,而不使用线性速度模型进行校正。

3.3 数据关联

在为现有目标分配检测时,通过预测其在当前帧中的新位置来估计每个目标的边界框。然后,将分配成本矩阵计算为每个检测与来自现有目标的所有预测边界盒之间的交叉-并集(IOU)距离。该作业采用匈牙利算法进行最优求解。此外,当对目标重叠的检测小于IOUmin时,会施加一个最小的IOU来拒绝分配。

我们发现,边界框的IOU距离隐式地处理了由通过的目标引起的短期遮挡。具体来说,当目标被遮挡物体覆盖时,只检测到封堵器,因为IOU距离适当地有利于具有类似规模的检测。这允许封堵器目标被纠正与检测,而覆盖的目标不受影响,因为没有分配。

3.4 跟踪标识的创建和删除

当对象进入和离开图像时,需要相应地创建或销毁唯一的标识。对于创建跟踪器,我们考虑任何重叠小于IOUmin的检测,以表示未被跟踪对象的存在。跟踪器的初始化使用边界框的几何形状,速度设置为零。由于在这一点上没有观察到速度,因此速度分量的协方差被初始化为较大的值,这反映了这种不确定性。此外,新的追踪器随后会经历一个试用期,其中目标需要与检测相关联,以积累足够的证据,以防止跟踪假阳性。

如果未检测到TLost帧,则终止跟踪。这就防止了跟踪器数量的无限增长和由长期没有探测器修正的预测造成的定位错误。在所有的实验中,TLost都被设置为1,原因有二。首先,恒速模型是一个很差的预测真实的动力学,其次,我们主要关注帧到帧的跟踪,其中对象的重新识别超出了本工作的范围。此外,丢失靶点的早期缺失有助于有效性。如果一个物体重新出现,跟踪将在一个新的身份下隐式地恢复。

4. 实验

我们评估了MOT基准数据库[6]设置的不同测试序列上的实现跟踪性能,该数据库包含移动和静态摄像机序列。为了调整初始卡尔曼滤波器协方差、IOUmin和TLost参数,我们使用了与[12]中报告的相同的训练/验证分割。所使用的检测架构是FrRCNN(VGG16)[22]。来自[22]的源代码和样本检测可以在网上获得。

4.1 指标

由于很难使用一个分数来评估多目标跟踪性能,我们使用[24]中定义的评估指标,以及标准的MOT指标[25]:

  • MOTA(↑):多目标跟踪准确度[25]。
  • MOTP(↑):多目标跟踪精度[25]
  • FAF(↓):每帧的误报数。
  • MT(↑):大部分跟踪轨迹的数量。也就是说,目标至少80%的寿命具有相同的标签。
  • ML(↓):大部分丢失的轨迹的数量。也就是说,目标至少有20%的寿命没有被跟踪。
  • FP(↓):错误检测的次数。
  • FN(↓):漏检检测次数。
  • IDsw(↓):一个ID切换到之前跟踪的不同对象[24]的次数。
  • Frag(↓):一个轨道被错过检测中断的碎片数。

使用(↑)进行评价时,得分越高表示表现越好;而对于使用(↓)的评价指标,得分越低表示表现越好。真阳性被认为与相应的地面真实边界框至少有50%的重叠。评估代码从[6]下载。

4.2 性能评估

跟踪性能使用MOT基准[6]测试服务器进行评估,其中11个序列的地面真相被保留。表2比较了所提出的SORT方法与其他几个基线跟踪器。为了简洁起见,只列出了最相关的跟踪器,即在准确性方面是最先进的在线跟踪器,如(TDAM[18],MDP[12]),最快的基于批处理的跟踪器(DP NMS[23])和所有全面接近在线方法(NOMT[11])。此外,还列出了启发这种方法的方法(TBD[20]、ALExTRAC[5]和SMOT[1])。与其他方法相比,SORT在在线跟踪器中获得了最高的MOTA分数,可以与最先进的方法NOMT相媲美,后者的方法更加复杂,在不久的将来使用帧。此外,由于SORT的目标是关注帧到帧的关联,尽管与其他跟踪器有类似的假阴性,但丢失的目标(ML)的数量是最小的。此外,由于SORT专注于帧到帧的关联来增长轨迹,因此与其他方法相比,它丢失的目标数量最少
在这里插入图片描述

​ 表2。该方法在MOT基准序列[6]上的性能

4.3 运行时间

大多数MOT解决方案旨在推动性能达到更高的准确性,通常是以牺牲运行时性能为代价的。虽然在离线处理任务中可以容忍缓慢的运行时间,但对于机器人技术和自动驾驶汽车来说,实时性能是必不可少的。图1显示了MOT基准[6]上的一些跟踪器与速度和精度的关系。这表明,获得最佳精度的方法也往往是最慢的(在图1的右下角)。在频谱的另一端,最快的方法往往具有较低的精度(图1中的左上角)。SORT结合了速度和精度这两个理想的特性,而没有典型的缺点(图1的右上角)。跟踪组件以260Hz运行在16GB内存的英特尔i7 2.5 GHz机器上。

5 总结

本文提出了一个简单的在线跟踪框架,重点是帧间的预测和关联。我们证明,跟踪质量高度依赖于检测性能,并利用检测的最新发展,只有使用经典的跟踪方法才能实现最先进的跟踪质量。所提出的框架在速度和准确性方面都取得了最好的类性能,而其他方法通常会牺牲另一种。所提出的框架的简单性使它非常适合作为一个基线,允许新的方法专注于对象的重新识别,以处理长期的遮挡。由于我们的实验强调了检测质量在跟踪中的重要性,未来的工作将研究一个紧密耦合的检测和跟踪框架。

(本文更像是一篇翻译。。下面给出个人觉得蛮不错的分析文章,更容易看懂![https://blog.csdn.net/Yemiekai/article/details/117867268)](https://blog.csdn.net/Yemiekai/article/details/117867268)

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

想学摄影的IT男

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值