论文翻译（16）--Towards Real-Time Multi-Object Tracking

最新推荐文章于 2023-07-21 09:13:03 发布

此生辽阔

最新推荐文章于 2023-07-21 09:13:03 发布

阅读量448

点赞数

分类专栏：论文学习

本文链接：https://blog.csdn.net/ningmengshuxiawo/article/details/110818101

版权

论文学习专栏收录该内容

17 篇文章 6 订阅

订阅专栏

Towards Real-Time Multi-Object Tracking

实时多目标跟踪

论文地址链接：https://pan.baidu.com/s/1nOMohvN7Mt1ReSFuYLTh4g
提取码：ecqa
论文地址：https://arxiv.org/pdf/1909.12605v1.pdf
代码地址：https://github.com/Zhongdao/Towards-Realtime-MOT

摘要：

现代多目标跟踪系统通常遵循检测跟踪模式。它具有1)用于目标定位的检测模型和2)用于数据关联的外观嵌入模型。分别执行这两个模型可能会导致效率问题，因为运行时间只是这两个步骤的总和，而没有研究它们之间可以共享的潜在结构。现有的做出的研究努力通常集中在关联步骤上，因此本质上是实时关联方法，而不是实时多目标检测系统。在本文中，我们提出了一个MOT系统，它允许在一个共享模型中学习目标检测和外观嵌入。具体来说，我们将外观嵌入模型合并到单次检测器中，使得该模型可以同时输出检测和相应的嵌入。这样，系统被表述为多任务学习问题:有多个目标，即锚点分类，边界框回归和嵌入学习；并自动对单个损失进行加权。据我们所知，这项工作报告了第一个(近)实时MOT系统，运行速度为18.8至24.1 FPS，具体取决于输入分辨率。同时，其跟踪精度可与采用独立检测和嵌入（SDE）学习的最新跟踪器相媲美(64.4% MOTA v.s. 66.1% MOTA on MOT-16 challenge).。代码和模型可在https://github.com/Zhongdao/Towards-Realtime-MOT获得

Introduction

多目标跟踪旨在预测视频序列中多个目标的轨迹，从自动驾驶到智能视频分析都具有重要应用意义。这个问题的主要策略，即跟踪检测范式(米兰等人，2016；Y u等人，2016年；Choi 2015)，将MOT分解为两个步骤:1)检测步骤，对单个视频帧中的目标进行定位；以及2)关联步骤，其中检测到的目标被分配并连接到现有轨迹。这意味着系统至少需要两个计算密集型组件:检测器和嵌入模型。为了方便起见，我们将这些方法称为“分离的检测和嵌入”方法（Separate Detection and Embedding (SDE)。因此，总体推断时间大致是两个分量的总和，并且将随着目标数量的增加而增加。SDE方法的特点给建立实时多目标检测系统带来了严峻的挑战，这是实践中的一个基本要求。

为了节约计算时间，一个可行的方法是将检测器和嵌入模型集成到单个网络中，因此，这两个任务可以共享同一组低维特征，并且避免了重复计算。联合检测器和嵌入学习的一种选择是采用Faster R-CNN框架(任等人，2015)，这是一种两级检测器。具体来说，第一阶段使用RPN网络，与Faster R-CNN保持相同，并输出检测到的边界框。第二阶段Fast R-CNN (Girshick 2015)可以通过用度量学习监督代替分类监督来转换成嵌入学习模型(肖等人2017；Voigtlaender等人，2019年)。尽管节省了一些计算，但由于其两级设计，该方法的速度仍然有限，通常运行速度低于每秒10帧。远远达不到实时要求。此外，第二阶段的运行时间也像SDE方法一样随着目标数量的增加而增加。

==本文致力于提高多目标跟踪（MOT）系统的效率。我们介绍了一种早期的尝试，即在单次深度网络中联合学习检测器和嵌入模型(JDE)。换句话说，所提出的JDE使用单个网络来同时输出检测结果和检测框的相应外观嵌入。相比之下，SDE方法和两阶段方法的特征分别是重新采样的像素(边界框)和特征图。边界框和特征图都被馈送到单独的重新标识（re-ID）模型中，用于外观特征提取。图1简要说明了SDE方法、两阶段方法和我们提出的JDE之间的区别。
在这里插入图片描述
我们的方法接近实时，同时几乎和SDE方法一样精确。例如，在MOT-16测试集上，我们获得了18.8 FPS的运行时间，MOTA=64.4%。相比之下，在MOT-16测试集上，Faster R-CNN + QAN嵌入仅以< 6 FPS的速度运行，MOTA=66.1%。

为了建立一个高效、准确的联合学习框架，我们探索并精心设计了以下基本方面:训练数据、网络架构、学习目标、优化策略和验证指标。首先，我们收集了六个公开的行人检测和人物搜索数据集，形成一个统一的大规模多标签数据集。在这个统一的数据集中，所有的行人边界框都被标记，并且一部分行人身份被标记。其次，我们选择特征金字塔网络(FPN)(林等2017)作为我们的基础架构，并讨论了网络学习最佳嵌入的损失函数类型。然后，我们将训练过程建模为一个多任务学习问题，包括锚点分类、边界框回归和嵌入学习。为了平衡每个单独任务的重要性，我们使用任务相关的不确定性(肯德尔，加尔和西波拉2018)来动态加权异质性损失。最后，我们采用以下评估指标。平均精度（AP）用于评估探测器的性能。采用FAR）和（TAR）来评估嵌入的质量。MOT的整体准确性由CLEAR指标(Bernardin和Stiefelhagen 2008)评估，尤其是MOTA指标。本文还为联合学习检测和嵌入任务提供了一系列新的设置和基线，我们相信这将有助于实时MOT的研究。

我们工作的贡献总结如下:
我们引入了JDE，一个用于联合检测和嵌入学习的一次性框架(a single-shot framework)。作为一个在线运动检测系统，它运行(接近)实时且和最新的独立检测+嵌入(SDE)方法相比具有相当的准确率。

我们从训练数据、网络架构、学习目标和优化策略等多个方面对如何构建这样一个联合学习框架进行了深入的分析和实验。

用相同的训练数据进行的实验表明，所提出的JDE在一系列强SDE模型组合中表现良好，并且达到最快的速度。

在MOT-16上的实验表明，考虑到训练数据的数量、精度和速度，我们的方法优于最先进的MOT系统。

Related Work&Experiments

MOT论文笔记《Towards Real-Time Multi-Object Tracking》

Conclusion

本文中，我们介绍了JDE，一个MOT系统，它允许在一个共享模型中学习目标检测和外观特征。我们的设计大大减少了MOT系统的运行时间，使其能够以(接近)实时的速度运行。同时，我们系统的跟踪精度与最先进的在线MOT方法相当。此外，我们还提供了关于建立这种联合学习框架的良好做法和见解的透彻分析、讨论和实验。未来，我们将更深入地研究时间精度的权衡问题。

生词短语

critical challenges 严峻的挑战
formulated 规划；用公式表示；明确地表达（formulate 的过去式和过去分词），表述
JDE Jointly learns the Detector and Embedding model 联合检测嵌入模型
SDE Separate Detection and Embedding model 检测嵌入分离模型
the detected boxes检测框
optimization strategies优化策略
valida tion metrics验证指标