2021CVPR A Benchmark for Generic Multiple Object Tracking

2021CVPR A Benchmark for Generic Multiple Object Tracking

项目开源地址:GMOT-40 A Benchmark for Generic Multiple Object Tracking

在这里插入图片描述

摘要

多目标跟踪(MOT)近年来取得了显著的进展。然而,现有的研究主要要求跟踪目标(如行人)的先验知识,因此可能不能很好地推广到看不见的类别。相比之下,通用多目标跟踪(GMOT)只需要很少的目标先验信息,在很大程度上还没有得到充分的探索。本文从三个方面为推进转基因技术的研究做出了贡献。首先,我们构建了第一个公开可用的密集GMOT数据集,称为GMOT-40,其中包含40个仔细注释的序列,均匀分布在10个对象类别中。此外,采用两种跟踪协议来评估跟踪算法的不同特性。其次,由于缺乏专门的跟踪算法,我们设计了一系列基线GMOT算法。第三,我们对GMOT-40进行全面评估,包括流行的MOT算法(经过必要的修改)和建议的基线

介绍

多目标跟踪(Multiple Object Tracking, MOT)由于其广泛的应用,如机器人、监视、自主驾驶、单元跟踪等,一直是计算机视觉界研究的课题。MOT近年来取得了显著的进展,部分原因在于检测、单目标跟踪、关联等主要技术的发展。另一个推动力是MOT基准的普及。尽管取得了这些成就,但以往的MOT研究大多集中在一个特定的兴趣对象类别(行人、汽车、细胞等),并依赖于这些对象的模型。例如,这些对象的检测器通常是预先离线训练的,有时也会利用特定对象的运动模式。目前还不清楚现有的MOT算法对不可见物体的推广效果如何,因此限制了MOT扩展到新的应用,特别是那些训练物体探测器的数据有限的应用。

相比之下,通用多对象跟踪(GMOT)旨在处理这些问题,它不要求事先了解要跟踪的对象。因此,GMOT可以应用于视频编辑、动物行为分析和基于视觉的对象计数。尽管它有广泛的应用,但除了一些早期的研究外,对它的探索还严重不足。对比GMOT和MOT的进展,我们可以看到明显缺乏GMOT基准,也缺乏具有有效深度学习成分的GMOT基准。注意,我们遵循了中GMOT的定义,即跟踪泛型对象类的多个对象。

针对上述问题,本文从数据集、基线和评价三个方面对GMOT技术进行了研究。首先,作者构建了第一个公开可用的GMOT密集数据集(GMOT-40),用于对GMOT的系统研究。GMOT-40包含40个精心挑选的序列,涵盖10个类别(如昆虫和气球),每个类别有4个序列。每个序列包含多个相同类别的对象,每帧对象的平均数量约为22个。所有序列都经过仔细的验证/修正手工标注。该序列涉及许多具有挑战性的因素,如重模糊,遮挡等跟踪协议用于评估跟踪算法的不同特性。one shot GMOT将第一帧中NetTarget对象的边界框作为输入,旨在检测和跟踪同一类别的所有对象。下图说明了one shot GMOT协议。
在这里插入图片描述

  • (a):一次性通用MOT的输入是在第一帧中指示一个目标模板的单个包围框。
  • (b):目标模板用于发现和提出同类别的所有其他候选目标,这与基于模型的MOT不同,后者需要预先训练的检测器(通常是特定类别的)。
  • ©:然后可通过在线或离线方式对候选人员进行MOT。黄色矩形是目标的放大局部视图。

其次,作者设计了一系列基线跟踪算法,专门用于一次性GMOT。这些基线包括一次探测阶段和目标关联阶段。一次性检测阶段采用了最近提出的GlobalTrack算法。目标关联阶段来源于几种典型的MOT算法。对于每个基线,一次性检测算法起到公共检测器的作用。(关于GlobalTrack算法详情可见AAAI 2020 | GlobalTrack:简单又强大!视频长期目标跟踪新基线)

三是深入开展GMOT-40评估。评估包括经典的跟踪算法和最近提出的一种,并进行了必要的修改。结果表明,作为一个重要的跟踪问题,GMOT有很大的改进空间。
综上所述,本文的主要贡献有三点:

  1. 第一个公开可用的密集GMOT数据集,GMOT-40,经过精心设计和注释,连同评估协议
  2. 一系列基于现代深度学习增强MOT算法的GMOT基线
  3. 全面评估和分析GMOT-40。

相关工作

(1)MOT的经典算法

根据跟踪器是否假定目标先验,MOT方法大致可分为基于模型和无模型两种方法。在基于模型的方法中,最流行的框架是通过检测进行跟踪,其中类别感知检测器用于生成候选建议,而跟踪器本身主要关注于解决数据关联问题。在该框架下研究了多种方法,如匈牙利算法、网络流、图多割、多假设跟踪和利用多种亲和估计方案进行多维分配等。随着深度学习的发展,深度神经网络也被用来解决数据关联问题。

基于模型的MOT方法可以自动处理目标的进入和退出事件。然而,它在很大程度上依赖于通过使用类别检测器或基于再识别(ReID)的亲和估计来使用目标先验。因此,最近的MOT方法主要关注行人和车辆的跟踪。例如,社区中越来越多的人使用ReID数据集或姿态估计数据集来提高跟踪过程中的关联鲁棒性,而其他人则采用最先进的人员检测技术,例如。这些检测和ReID网络是经过训练的,因此受到可用数据集的限制,因此,这类方法将不能成功地处理和跟踪通用目标。尽管在人员和车辆跟踪方面的工作占主导地位,但仍有许多工作侧重于其他目标类别。单元格跟踪是本节的一个热门主题。对蚂蚁、蝙蝠、鸟类、蜜蜂和鱼类等多种目标的检测和跟踪也进行了研究。这些工作中提出的方法也需要对目标的出现或运动模式进行特殊的建模,因此也不能普遍应用于一般目标

无模型方法为MOT提供了另一类解决方案。无目标先验跟踪主要是针对单目标跟踪中第一帧只给出目标的一个边界框,且不知道目标的类别先验的问题提出的。将无模型的思想扩展到mot的环境中是一个新兴的课题。在Preserving Structure in Model-Free Tracking中,结构信息被用来帮助跟踪多个外观相似的目标。在学习了外观和运动模型,以处理突然的外观变化和遮挡。这两种方法都需要手动初始化所有目标。在Model-Free Multiple Object Tracking with Shared Proposals中,使用了一个独立于类属的对象建议模块来生成目标候选对象。[38]等人提出使用聚类多任务学习进行一般目标检测。所有这些工作都是在具有有限序列或有限目标类别的数据集上进行评估的

(2)MOT基准

基于模型的MOT有多个基准数据集。

最古老的基准之一是PETS基准:它包含三个单摄像头MOT序列,而所有这些序列都在行人上。随后,以自动驾驶为主的基准是KITTI,它包含行人和车辆两类。在此基础上,Alahiet提出了一个基于行人跟踪的基准数据集。尽管该基准包含4200万条行人轨迹,但其标注质量并不高(即不需要人工标注)。随后发布了MOT车辆跟踪基准数据集,名称为UA-DETRAC,包含100个序列。同年发布了MOT15,其中组织了当时可公开获得的MOT数据,并成为最受欢迎的MOT基准之一。然而值得注意的是,在这个基准中只有两类:人和交通工具,并且只包含了22个序列。后来,MOT16发表了14个序列,专门用于人和车辆的跟踪。VisDrone发布了96个聚焦于车辆和人的序列。除了上面提到的关于人和车辆跟踪的流行MOT基准数据集,还有一些关于特殊类的其他基准数据集,如蜜蜂和细胞。例如,多细胞跟踪数据集有52个以细胞为焦点的序列,蜜蜂跟踪数据集有蜜蜂的60个序列.

如下表所示,用于无模型MOT的高质量数据集很少。在该研究中,张等人收集了一个包含9个视频序列的数据集,每个视频序列用于不同类型的目标。其中3个视频来自于SOT数据集,其余视频来自于Y ouTube。数据集平均每帧包含3个目标。这里的每个视频平均长度为842帧。数据集中的目标实时显示在视频中,无需跟踪器处理目标的进入和退出事件。luo等人分别为GMOT的早期研究收集了4个和8个视频的数据集。最近的研究倾向于使用从其他SOT或多个行人跟踪数据集中挑选的混合序列。最近,提出了一种大规模的任意目标跟踪基准(TAO)。但是TAO注释不够密集,注释质量较低。每30帧中只有1帧是手工标注的,每个序列TAO的平均轨迹仅为5.9。此外,TAO的任务是跟踪不同类的多个对象,这与本文的GMOT概念不同。因此,我们在比较下表中没有包含TAO。。其中:seq:序列数量, cat:类别数量, tgt:每帧目标的平均数量
在这里插入图片描述

通用MOT数据集GMOT-40

作者介绍GMOT-40数据集和相关的评估协议。如相关工作所述,迫切需要一个严肃的GMOT数据集/基准来推进GMOT的研究。通过研究以往论文中的数据问题,并借鉴最近流行的跟踪基准,作者旨在从以下几个方面构建一个高质量的数据集:

目标类别的多样性。为了解决以往MOT研究中的一般化问题,GMOT-40被设计为包含来自10个不同类别的40个序列,这比大多数以前研究的数据集(通常少于3个类别)都要大。每一类中的四个序列都有进一步的多样性。例如,GMOT-40中的“人”类别既包括帕斯卡- voc[17]中的普通“人”,也包括隐形类型的“翼装”;“昆虫”类包括“蚂蚁”和“蜜蜂”,这两个词在MS-COCO[35]或PASCALVOCC[17]中都没有出现。下图显示了GMOT-40中的一些示例框架
在这里插入图片描述

真实世界挑战。在序列选择过程中,我们特别注意包含具有各种真实世界挑战的序列,例如遮挡、目标插入/退出、快速运动、模糊等。此外,目标密度范围为每帧3到100个目标,平均约26个。所有这些特性使GMOT-40涵盖了广泛的场景。

高质量的注释。对于高质量的标注,序列中的每一帧都需要手工标注,以保证标注的精准。此外,初始注释之后将进行仔细的验证和修订。

值得注意的是,虽然更多的序列可能会进一步提高数据的可用性,但在手动注释方面的额外努力可能会推迟数据集的及时发布。事实上,如表1所示,GMOT-40对以前使用的GMOT数据进行了全面改进,因此有望促进未来的GMOT研究。

数据手机方式

根据上面提到的指导,我们首先决定10类高度密集和拥挤的物体。在选择视频序列时,我们要求序列中至少80%的帧有10个以上的目标。同一类别的大多数目标具有相似的外观,而部分目标的外观不同,更接近现实。序列的最小长度被设置为100帧。在课程和要求确定之后,我们开始在YouTube上搜索可能的候选视频。大约1000个序列最初被选为候选序列。经过仔细研究,我们从中选择了40个序列,以获得更好的质量和更有挑战性的任务。然而,这并不意味着这40个序列可以用于注释。有些序列包含了很大一部分与我们的任务无关。例如,在“气球”类中,节日中有聚焦舞台或庆祝人群的开始和结束部分,应该删除。以这种方式,我们仔细编辑视频,并选择最好的剪辑,至少100帧。最后,GMOT-40平均每个序列包含50.65个轨迹。整个数据集共有9643帧,每个序列的平均长度为240帧,85.28%的帧有10个以上目标。FPS从24到30,分辨率从480p到1080p。与GMOT研究中使用的其他密集注释数据相比,GMOT-40的统计数据汇总于上表。注意,我们在这里使用GMOT-40的类别定义,因为其他基准测试中的类别不够通用。例如,“sky diving”和“basketball”类都属于GMOT-40中的“person”类。

视频属性

如上图所示,与以前的GMOT论文中使用的其他数据相比,GMOT-40包含了不同的场景,因此包含了更全面的属性。例如,所有的“人”、“球”和“昆虫”类都具有运动模糊和快速运动的属性。此外,视点对“船”类的外观有显著影响。此外,低分辨率和相机运动分别出现在“球”和“家畜”中。图3给出了各种属性的详细直方图。属性的缩写有以下含义:CM -摄像机运动,ROT -目标旋转,DEF -目标在跟踪中的变形,VC -影响目标外观的显著视点变化,VC -摄像机运动,ROT -目标旋转,DEF -目标在跟踪中的变形,VC -影响目标外观的显著视点变化,MB -目标因相机或目标运动而模糊;FM -目标位移大于包围盒的快速运动;LR -目标包围盒在整个序列中至少30%的目标小于1024像素。虽然在前人的GMOT研究中存在着以上的一些属性,但是GMOT-40是最全面的,因为它是从各种自然场景中收集的。GMOT-40的这些杂项属性可以帮助社区从多个方面评估他们的跟踪器

GMOT协议和跟踪基线

协议

该协议旨在全面评估GMOT跟踪器在现实世界的应用设置。一个实用的通用跟踪器是无模型的,因此能够跟踪只知道一个目标模板的多个通用对象。采用本协议后,在每个视频的第一帧只提供一个边界框来表示感兴趣的对象。跟踪器应该使用该边界框中的对象作为模板,利用该对象的信息检测和跟踪同一类别视频中的所有目标。GMOT-40中的所有序列用于测试跟踪器在一次性GMOT协议的未见类别上的性能。为了比较,我们还设计了几个新的基线,使用第一帧中给出的唯一一个样本来生成整个序列的公共检测。追踪者可以接受除GMOT-40以外的任何其他基准的培训。为了选择一个序列的初始目标,我们在第一帧中随机采样一些没有被遮挡的目标。然后我们仔细地手工挑选出其中最好的一个,以确保它作为一个样本具有代表性和健壮性。

Baselines for One-shot GMOT

对于一次性GMOT协议,我们通过改进现有的跟踪算法,提出了一系列两阶段基线。每个基线由一个一次性检测阶段和一个目标关联阶段组成,前者依次获取所有帧的检测结果,后者将检测到的目标关联起来,得到最终的跟踪结果。

一次性检测阶段

在我们的实现中,我们采用了最近提出的SOT方法GlobalTrack[28],来创建一个一次性检测方法。GlobalTrack在接下来的帧(搜索帧)中搜索整个图像,而大多数SOT跟踪器只在前一帧中搜索目标位置的一个预定义的邻域。模型在其他数据集上进行预训练[35,27,18]。然后将改进后的模型分解为两个模块:目标引导区域提议模块和目标引导匹配模块。目标引导区域提议模块提取初始帧上标记目标的特征,并返回搜索帧上可能包含目标的区域。然后,目标导向匹配模块从这些区域提取特征,计算这些潜在目标之间的相似度评分,并产生多个搜索结果与细化的位置。此外,对相似度评分低于阈值(0.1)的目标进行过滤。在一次性检测过程中,初始帧总是第一帧,这些搜索帧包括序列中的所有帧,包括第一帧本身。检测过程是重复的,以得到所有这些帧的结果。整个过程如下图算法中显示。

在这里插入图片描述

目标关联阶段

基于这些检测结果,作者现在将一次性GMOT任务转换为具有公共检测的传统MOT任务。大多数现有的MOT算法都可以在此进行关联。评估中使用的MOT算法将在后面进行说明。将单镜头检测方法与不同的目标关联方法相结合,得到了一系列单镜头GMOT任务基线。我们将在后文中全面评估它们的跟踪性能。

协议的评估

首先评估由基线算法生成的候选目标的质量。因为在一次性的通用设置中,类别之间的差异是无关紧要的。因此,我们直接使用AP(平均精度)作为度量来报告“检测”性能。我们的AP50为15.65%,AP75为15.51%,而IOU阈值分别设为0.5和0.75。请注意,我们的基准目标候选人提案并没有接受GMOT-40训练。在定性分析中,发现基线存在变形、旋转出平面、运动模糊和分辨率低的问题。原因可能是我们修改后的GlobalTrack匹配模块在最后阶段对置信进行排名时产生了过多的假阴性。
在下面的实验中,我们的基线算法生成的检测结果作为公共检测。在初始设置下,我们使用预先训练的模型在所有40个序列上测试跟踪器,无需任何进一步的测试,修改表2中列出了结果以及MOTA和IDF1。随着一次性探测器的加入,MDP成为其中最好的。但其IDF1仅为31.30%,MOTA仅为19.80%。Deep SORT和FAMNet在这里的表现比MDP稍差,后面有IOU跟踪器。换句话说,他们的检测过程和他们的表现之间存在着相关性。图4显示了一个结果示例,每种颜色代表不同的轨迹。

                                              跟踪器与一次性GMOT协议的比较

在这里插入图片描述
此外,我们还使用下图来比较不同类的性能。每个条代表所有5个跟踪器的均值。具体来说,“鸟”和“昆虫”类对所有跟踪器都是一个挑战。这再次证明了多样性的必要性,也因此才有了GMOT-40的发布。
在一次性GMOT协议中,不同班级的所有跟踪器的平均分数
在一次性GMOT协议中,不同班级的所有跟踪器的平均分数
最后,确保实验结果与用户选择的初始结果不存在偏差。我们在第1帧中随机抽取1个目标样本,重复此步骤5次。然后我们报告这5个实验结果的平均值和标准差。结果如表3所示。可以看出,波动非常小,说明初始边界盒的选择对结果影响不大。

消融实验

在烧蚀研究中,在所有其他实验条件相同的情况下,为跟踪器提供了地面真实感检测。该协议的结果如小表所示,我们可以看到几乎所有跟踪器的性能与表2相比有显著改善。请注意,我们的基准测试包含许多类别,这些类别在跟踪器培训期间是看不见的。因此,基准将倾向于基于交集而非并集的关联(IOU)跨帧而非外观特征的目标。因此,简单IOU跟踪器的IDF1和MOTA排名第二,分别为79.00%和75.90%。在同时使用运动和外观信息的情况下,Deep SORT通过保持两者之间的合理平衡,获得了最佳的MOTA和IDF1分数。对于MDP,其性能不如深度排序和IOU跟踪器。原因可能是它对检测的处理过多,因为我们在这里直接提供地面真相检测。对于FAMNet来说,其性能平庸主要是由于对检测噪声的处理。虽然这里提供了地面实况检测,但FAMNet放弃了太多的检测,因此导致了许多误报。
在这里插入图片描述
此外,还使用下图来比较不同类别下的性能。一般来说,追踪器在消融研究中表现较好。不同类别之间的性能差异强调了发布GMOT基准来更全面地评估跟踪器的重要性。 在消融研究中,所有不同级别的追踪器的平均得分
在这里插入图片描述

结论

在本文中,我们提出了第一个,据我们所知,公开可用的密集注释的通用多对象跟踪(GMOT)基准,名为GMOT-40。GMOT-40充分考虑了MOT的主要因素,并对所有跟踪对象进行了仔细的标注,包含40个序列,平均分布在10个对象类别中。与GMOT-40数据集相关联的是GMOT的一次性评估协议。此外,还开发了一些新的用于一次性gmmot的基线算法,并与相关的MOT跟踪器一起进行评估,为今后的研究提供参考。评价结果表明,转基因技术仍有很大的改进空间,有待进一步研究。总的来说,我们期望基准和最初的研究在很大程度上促进未来对GMOT的研究,这是计算机视觉中一个重要但尚未探索的问题。

欢乐的时光总是短暂的,让我们下一次再见!!!
good good study,day day up! (study hard, improve every day)
预知后事,请听下回分解!!!!
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值