DEFT: Detection Embeddings for Tracking论文解读

最新推荐文章于 2024-05-25 09:37:23 发布

无人不智能，机器不学习

最新推荐文章于 2024-05-25 09:37:23 发布

阅读量1.1k

点赞数 2

分类专栏：深度学习算法 pyTorch

本文链接：https://blog.csdn.net/qidailiming1994/article/details/113774482

版权

DEFT是一种联合检测与跟踪模型，通过目标匹配网络与检测网络联合学习，实现高效的多目标跟踪。DEFT利用检测器的特征向量作为嵌入信息，增强帧间关联的准确性，同时使用LSTM模块处理运动约束，提高对遮挡和大位移的鲁棒性。在nuScenes等具有挑战性的3D视觉跟踪基准上，DEFT的性能显著优于其他方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

DEFT: Detection Embeddings for Tracking论文解读

摘要

大多数现代多目标跟踪（MOT）系统遵循按检测跟踪的模式，由检测器和将检测关联到轨迹的方法组成。在结合运动和外观特征以提供对遮挡和其他挑战的鲁棒性的跟踪研究方面已有很长的历史，但是这通常伴随着更复杂和更慢的实现的权衡。最近在流行的2D跟踪基准上取得的成功表明，通过使用最先进的检测器和依赖于单帧空间偏移的相对简单的关联，可以获得最高分，这显著优于利用学习的外观特征帮助重新识别丢失轨迹的现代方法。在本文中，我们提出了一个有效的联合检测与跟踪模型DEFT，或称为“跟踪的检测嵌入”。我们的方法依赖于一个基于外观特征的目标匹配网络与一个底层的目标检测网络联合学习。还添加了一个LSTM来捕获运动约束。DEFT具有与2D在线跟踪排行榜上的顶级方法相当的精度和速度，同时在应用于更具挑战性的跟踪数据时在鲁棒性方面具有显著优势。

1简介

近年来，视觉多目标跟踪（MOT）技术取得了长足的发展，部分原因是受移动机器人技术和自主驾驶应用的推动。基于卷积神经网络（CNN）的目标检测器的精度和效率的不断提高推动了“检测跟踪”范式的主导地位。最近的工作表明，添加到最新检测器中的简单跟踪机制可以比依赖于旧检测体系结构的更复杂的跟踪器表现更好。
基于检测的跟踪方法主要包括两个步骤：1）检测单个视频帧中的目标；2）将当前帧中检测到的目标与前一帧中检测到的目标进行关联。最近的一个趋势是在单个神经网络中联合学习检测和跟踪任务，这使得跟踪基准和相关应用的性能提高。然而，结合外观和动作线索的现有端到端方法可能复杂且缓慢。
我们假设学习的目标匹配模块可以添加到大多数当代基于CNN的目标检测器中，以产生高性能的多目标跟踪器，并且，通过联合训练检测和跟踪（关联）模块，这两个模块可以相互适应，并共同表现出更好的性能。与使用检测作为关联逻辑的黑盒输入的方法相比，使用相同的主干进行对象检测和帧间关联可以提高效率和准确性。
本文提出了一种从检测器网络的多尺度主干中提取每个目标的嵌入信息，作为目标跟踪关联子网的外观特征的方法。我们将我们的方法命名为“用于跟踪的检测嵌入”（DEFT）。我们证明了DEFT可以有效地应用于几种流行的目标检测主干网。由于在网络设计中特征共享的好处，我们使用外观和运动线索进行跟踪的方法具有与使用简单关联策略的领先方法相当的速度。因为DEFT会随着时间的推移保留外观嵌入的记忆，所以它比顶级替代方案对遮挡和较大的帧间位移更具鲁棒性。这种鲁棒性使得DEFT在具有挑战性的nuScenes三维单目视觉跟踪基准上显著优于其他方法。