DEFT: Detection Embeddings for Tracking论文解读

DEFT: Detection Embeddings for Tracking论文解读

摘要

大多数现代多目标跟踪(MOT)系统遵循按检测跟踪的模式,由检测器和将检测关联到轨迹的方法组成。在结合运动和外观特征以提供对遮挡和其他挑战的鲁棒性的跟踪研究方面已有很长的历史,但是这通常伴随着更复杂和更慢的实现的权衡。最近在流行的2D跟踪基准上取得的成功表明,通过使用最先进的检测器和依赖于单帧空间偏移的相对简单的关联,可以获得最高分,这显著优于利用学习的外观特征帮助重新识别丢失轨迹的现代方法。在本文中,我们提出了一个有效的联合检测与跟踪模型DEFT,或称为“跟踪的检测嵌入”。我们的方法依赖于一个基于外观特征的目标匹配网络与一个底层的目标检测网络联合学习。还添加了一个LSTM来捕获运动约束。DEFT具有与2D在线跟踪排行榜上的顶级方法相当的精度和速度,同时在应用于更具挑战性的跟踪数据时在鲁棒性方面具有显著优势。

1简介

近年来,视觉多目标跟踪(MOT)技术取得了长足的发展,部分原因是受移动机器人技术和自主驾驶应用的推动。基于卷积神经网络(CNN)的目标检测器的精度和效率的不断提高推动了“检测跟踪”范式的主导地位。最近的工作表明,添加到最新检测器中的简单跟踪机制可以比依赖于旧检测体系结构的更复杂的跟踪器表现更好。
基于检测的跟踪方法主要包括两个步骤:1)检测单个视频帧中的目标;2)将当前帧中检测到的目标与前一帧中检测到的目标进行关联。最近的一个趋势是在单个神经网络中联合学习检测和跟踪任务,这使得跟踪基准和相关应用的性能提高。然而,结合外观和动作线索的现有端到端方法可能复杂且缓慢。
我们假设学习的目标匹配模块可以添加到大多数当代基于CNN的目标检测器中,以产生高性能的多目标跟踪器,并且,通过联合训练检测和跟踪(关联)模块,这两个模块可以相互适应,并共同表现出更好的性能。与使用检测作为关联逻辑的黑盒输入的方法相比,使用相同的主干进行对象检测和帧间关联可以提高效率和准确性。
本文提出了一种从检测器网络的多尺度主干中提取每个目标的嵌入信息,作为目标跟踪关联子网的外观特征的方法。我们将我们的方法命名为“用于跟踪的检测嵌入”(DEFT)。我们证明了DEFT可以有效地应用于几种流行的目标检测主干网。由于在网络设计中特征共享的好处,我们使用外观和运动线索进行跟踪的方法具有与使用简单关联策略的领先方法相当的速度。因为DEFT会随着时间的推移保留外观嵌入的记忆,所以它比顶级替代方案对遮挡和较大的帧间位移更具鲁棒性。这种鲁棒性使得DEFT在具有挑战性的nuScenes三维单目视觉跟踪基准上显著优于其他方法。

2相关工作

通过检测跟踪。大多数最先进的跟踪器都采用检测跟踪的方法,这在很大程度上取决于检测器的性能。这种方法中的跟踪器通常使用检测器作为黑盒模块,并且只

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值