【论文速递】ECCV2022 - MOTR:使用Transformer进行端到端多目标跟踪

【论文速递】ECCV2022 - MOTR:使用Transformer进行端到端多目标跟踪

【论文原文】:MOTR: End-to-End Multiple-Object Tracking with Transformer

作者信息】:Fangao Zeng, Bin Dong, Yuang Zhang, Tiancai Wang,Xiangyu Zhang, and Yichen Wei

论文:https://arxiv.org/abs/2105.03247
代码:https://github.com/megvii-research/MOTR

博主关键词: 多目标跟踪,transformer,track query, end to end

推荐相关论文:

【论文速递】CVPR2022 - 全局跟踪Transformers
- https://blog.csdn.net/Never_moresf/article/details/128704693

摘要:

物体的时间建模是多目标跟踪(MOT)中的一个关键挑战。现有的方法通过基于运动和外观相似度启发式来关联检测结果进行跟踪。关联的后处理性质阻止了视频序列中时间变化的端到端利用。
本文中,我们提出了MOTR,它扩展了DETR[6]并引入了“track query(跟踪查询)”来模拟整个视频中的跟踪实例。跟踪查询会逐帧地进行传输和更新,以便随时间进行迭代预测。我们提出了跟踪器感知的标签分配方法来训练跟踪查询和新出现的物体查询。我们进一步提出了时间聚合网络和集体平均损失来增强时间关系建模。在DanceTrack上的实验结果表明,MOTR在HOTA指标上比最先进的方法ByteTrack[42]提高了6.5%。在MOT17上,MOTR在关联性能上优于我们的竞争方法TrackFormer [18]和TransTrack [29]。MOTR可以作为未来关于时间建模和基于Transformer的跟踪器研究的更强基线。代码可在https://github.com/megvii-research/MOTR获得。

关键词 多目标跟踪,transformer,track query, end to end

简介:

多目标跟踪(MOT)预测连续图像序列中实例的轨迹[39,2]。大多数现有方法将MOT时间关联分为外观和运动两个方面:外观变化通常通过对配对式Re-ID相似度[37,43]进行测量,而运动则通过IoU[4]或卡尔曼滤波[3]启发式进行建模。这些方法需要基于相似度的匹配进行后处理,这成为帧间时间信息流的瓶颈。本文旨在介绍一个完全端到端的MOT框架,其中结合了运动和外观建模。

最近,DETR[6,45]被提出作为端到端的目标检测方法。它将目标检测公式化为一种集合预测问题。如图1(a)所示,物体查询作为物体的解耦表示,被输入到Transformer解码器中,并与图像特征进行交互以更新它们的表示。进一步采用二分图匹配来实现物体查询与真实值之间的一对一分配,消除了后处理,如NMS。与目标检测不同,MOT可以被看作是一种序列预测问题。如何在端到端的DETR系统中进行序列预测是一个开放的问题。
在这里插入图片描述

Fig. 1. : (a) DETR achieves end-to-end detection by interacting object queries with image features and performs one-to-one assignment between the updated queries and objects. (b) MOTR performs set of sequence prediction by updating the track queries. Each track query represents a track.

在机器翻译中,迭代预测很受欢迎[30,31]。输出的上下文由隐藏状态表示,句子特征在解码器中迭代地与隐藏状态交互以预测翻译单词。受到机器翻译中的这些进展的启发,我们直观地将MOT视为一组序列预测问题,因为MOT需要一组对象序列,每个序列对应于一个对象轨迹。从技术上讲,我们将DETR中的物体查询扩展为跟踪查询,以预测对象序列。跟踪查询作为对象轨迹的隐藏状态。跟踪查询的表示在Transformer解码器中更新,并用于迭代地预测对象轨迹,如图1(b)所示。具体而言,跟踪查询通过帧特征进行自我注意力和自我注意力进行更新。更新后的跟踪查询进一步用于预测边界框。一个对象的跟踪可以从不同帧中一个跟踪查询的所有预测中获得。

为了实现上述目标,我们需要解决两个问题:1)通过一个跟踪查询跟踪一个对象;2)处理新生和终止的对象。为了解决第一个问题,我们引入了轨迹感知标签分配(TALA)。这意味着一个跟踪查询的预测是由具有相同标识的边界框序列进行监督的。为了解决第二个问题,我们维护一个可变长度的跟踪查询集合。新生对象的查询被合并到这个集合中,而终止对象的查询则被删除。我们称这个过程为入口和出口机制。这样,MOTR在推理过程中不需要显式的跟踪关联。此外,跟踪查询的迭代更新使得关于外观和动作的时间建模成为可能。

为了增强时间建模,我们进一步提出了集体平均损失(CAL)和时间聚合网络(TAN)。使用CAL,MOTR在训练期间以视频片段为输入。MOTR的参数是基于整个视频片段计算的总体损失更新的。TAN通过在Transformer中的key-query机制引入了一种用于跟踪查询的shortcut,以便聚合其先前状态的历史信息。

在这里插入图片描述

Fig. 2. :The overall architecture of MOTR. “Enc” represents a convolutional neural network backbone and the Transformer encoder that extracts image features for each frame. The concatenation of detect queries qd and track queries qtr is fed into the Deformable DETR decoder (Dec) to produce the hidden states. The hidden states are used to generate the prediction Yb of newborn and tracked objects. The query interaction module (QIM) takes the hidden states as input and produces track queries for the next frame.

MOTR是一个简单的在线追踪器。它可以基于DETR进行开发,只需要对标签分配进行微小的修改。它是一个真正的端到端MOT框架,在推理期间不需要任何后处理,例如在我们的并行工作TransTrack [29]和TrackFormer [18]中使用的跟踪NMS或IoU匹配。在MOT17和DanceTrack数据集上的实验结果表明,MOTR表现出有希望的性能。在DanceTrack [28]上,MOTR在HOTA指标上比最先进的ByteTrack [42]提高了6.5%,在AssA上提高了8.1%。

综上所述,主要贡献总结如下:

1.我们提出了一个完全的端到端MOT框架,名为MOTR。MOTR可以隐式地学习外观和位置的变化,并在联合的方式下进行学习。
2.我们将MOT问题看作一组序列预测问题。我们从先前的隐藏状态生成跟踪查询,以进行迭代更新和预测。
3.我们提出了轨迹感知标签分配方法,用于将跟踪查询和对象进行一对一的分配。我们引入了入口和退出机制来处理新生和终止的轨迹。
4.我们进一步提出了CAL和TAN来增强时间建模

【论文速递 | 精选】

论坛地址:https://bbs.csdn.net/forums/paper
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值