Towards Real-Time Multi-Object Tracking

       作者分别是来自清华大学和澳大利亚国立大学
Abstract

       现代多目标跟踪(MOT)系统通常遵循基于检测的跟踪模式。它具有1)用于目标定位的检测模型,以及2)用于数据关联的外观嵌入模型。分别执行这两个模型可能会导致效率问题,因为运行时间只是这两个步骤的总和,而没有研究它们之间可以共享的潜在结构。现有的实时MOT研究多集中在关联步骤上,本质上属于实时关联方法,而非实时MOT系统。在本文中,我们提出了一个MOT系统,该系统允许在一个共享模型中学习目标检测和表观嵌入。具体来说,我们将外观嵌入模型合并到单镜头探测器中,这样模型就可以同时进行输出检测和相应的嵌入。因此,该系统被表述为一个多任务学习问题:有多个目标,即锚点分类、边界盒回归、嵌入学习;单个损失会自动计算。据我们所知,这项工作报告了第一个(接近)实时MOT系统,根据输入分辨率,其运行速度为18.8到24.1 FPS。与此同时,它的跟踪精度可与包含分离检测和嵌入(SDE)学习(64.4% MOTA v.s. 66.1% MOTA on MOT-16挑战赛)的最先进的跟踪器相媲美。
Introduction
       多目标跟踪(MOT)旨在预测视频序列中多个目标的轨迹,它的关键应用意义从自动驾驶到智能视频分析。
       解决这个问题的主要策略是:(米兰等,2016年;Yu et al. 2016;Choi(2015)将MOT分解为两个步骤:1)检测步骤,在检测步骤中,对单个视频帧中的目标进行定位;2)关联步骤,将检测到的目标分配并连接到现有的轨迹。这意味着该系统至少需要两个计算密集型组件:一个检测器和一个嵌入(re-ID)模型。为了方便起见,我们将这些方法称为分离检测和嵌入(SDE)方法。因此,总的推断时间大致是两个组件的总和,并将随着目标数量的增加而增加。SDE方法的特点给实时MOT系统的构建带来了严峻的挑战,这是实践中的必然要求。
       为了节省计算量,一个可行的方法是将检测器和嵌入模型集成到一个网络中。因此,这两个任务可以共享相同的低层特性集,并且避免了重新计算。联合检测器和嵌入学习的一种选择是采用Faster R-CNN框架(Ren等人,2015),这是一种两阶段检测器。具体来说,第一阶段是区域提案网络(RPN),与Faster R-CNN保持相同,并输出检测到的边界框。 第二阶段,Fast R-CNN(Girshick 2015),可以通过用度量学习监督替代分类监督来转换为嵌入学习模型(Xiao等人2017; Voigtlaender等人2019)。尽管节省了一些计算量,但由于采用了两级设计,这种方法的速度仍然有限,通常运行速度低于10帧/秒(FPS),远远达不到实时要求。而且,第二阶段的运行时间也会随着目标数量的增加而增加,就像SDE方法一样。
       本文主要研究如何提高MOT系统的效率。我们介绍了一种早期尝试,它可以在单一深度网络中共同学习检测器和嵌入模型(JDE)。也就是说,所提出的JDE使用单个网络来同时输出检测结果和检测到的box的相应外观嵌入。相比之下,SDE方法和两阶段方法分别由重新采样的像素(包围框)和特征映射来表征。边界框和特征映射都被输入到一个单独的re-ID模型中进行外观特征提取。图1简要说明了SDE方法、两阶段方法和建议的JDE之间的区别。图1简要说明了SDE方法、两阶段方法和建议的JDE之间的区别。我们的方法几乎是实时的,但几乎与SDE方法一样准确。 例如,我们在MOT-16测试仪上获得了18.8 FPS的运行时间,MOTA = 64.4%。 相比之下,在MOT-16测试仪上,Faster R-CNN + QAN嵌入仅以<6 FPS进行,MOTA = 66.1%。
在这里插入图片描述
       图1:(a)单独检测与嵌入(SDE)模型、(b)两阶段模型与©联合检测与嵌入(JDE)模型的比较
       为了构建一个高效、准确的联合学习框架,我们探索并精心设计了以下几个基本方面:训练数据、网络架构、学习目标、优化策略和验证指标。首先,我们收集了六个公开的行人检测和人员搜索数据集,形成一个统一的大规模多标签数据集。在这个统一的数据集中,所有行人边界框都被标记,行人标识的一部分也被标记。其次,我们选择特征金字塔网络(FPN) (Lin et al. 2017)作为我们的基础架构,讨论网络学习哪种类型的损失函数是最好的嵌入。然后,我们将训练过程建模为一个包含锚分类、盒回归和嵌入学习的多任务学习问题。为了平衡每个单独任务的重要性,我们使用任务依赖的不确定性(Kendall、Gal和Cipolla 2018)来动态加权异构损失。最后,我们采用以下评估指标。 平均精度(AP)用于评估检测器的性能。 采用某种误报率(FAR)的取回率True接受率(TAR)来评估嵌入的质量。总体MOT准确性由CLEAR指标(Bernardin和Stiefelhagen 2008)评估,尤其是MOTA指标。 本文还为联合学习检测和嵌入任务提供了一系列新的设置和基线,我们认为这将有助于对实时MOT的研究。
       我们的工作成果总结如下:
       介绍了一种用于联合检测和嵌入学习的单镜头框架JDE。作为一个在线MOT系统,它运行(接近)实时,并与分离检测+嵌入(SDE)的最先进的方法相媲美的准确性。
       我们从训练数据、网络架构、学习目标和优化策略等多个方面对如何构建这样一个联合学习框架进行了深入的分析和实验。
       在相同训练数据下的实验结果表明,所提出的JDE算法具有较强的SDE模型组合能力,达到了最快的速度。
       在MOT-16上的实验表明,考虑到训练数据量、准确性和速度,我们的方法优于最先进的MOT系统。
Related Work
       近年来多目标跟踪的研究进展主要有以下几个方面:
       1. 将关联问题建模为图上某种形式的优化问题(Wen et al. 2014;Zamir, Dehghan, and Shah 2012;Kim等人,2015)。
       2. 努力用端到端神经网络对关联过程建模(Sun et al. 2019;(

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值