TUM提出TrackFormer:基于Transformers的多目标跟踪

 
 

点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。

9546c80d0d1aa672d486ee37fdc3392a.jpeg

6953a0f2dc906d8b4a71a5f499970ed7.png

TrackFormer通过注意进行联合目标检测和跟踪。自回归跟踪查询嵌入将过去和未来的帧与基于变压器的注意连接起来,这将导致身份、遮挡和新对象的检测。

摘要

作者提出了一种基于编码器-解码器转换器结构的端到端多目标跟踪和分割模型TrackFormer。作者的方法引入了跟踪查询嵌入,通过视频序列利用一个自回归的方式跟踪对象。新的轨迹是由DETR对象检测器产生的,并且随着时间的推移嵌入相应对象的位置。Transformers解码器在帧之间调整跟踪查询嵌入,从而跟随目标位置的变化。TrackFormer在一个新的注意跟踪范式中实现了帧之间的无缝数据关联,通过自我和编码器-解码器注意机制,同时推理位置、遮挡和对象身份。TrackFormer产生在多目标跟踪(MOT17)和分割(MOTS20)任务上的最先进的性能状态。作者希望作者的检测和跟踪的统一方式将促进未来多目标跟踪和视频理解的研究。

代码将会于近期公布

本文主要工作

在经验评估中,作者将TrackFormer应用到MOT17基准,在那里它达到了最优的性能。此外,作者展示了作者的模型输出分割蒙版的灵活性,并展示了多目标跟踪和分割(MOTS20)挑战的最新成果。

综上所述,作者做出了以下贡献:

  • 一个基于Transformers的统一的检测(或分割)和多目标跟踪方法,实现了一个新的跟踪-注意范式的跟踪单独与注意关联。

  • 新概念的自回归轨迹查询嵌入对象的空间位置,并随时间跟踪它。

  • 在两个具有挑战性的多目标跟踪基准(MOT17和MOTS20)的最先进的结果。

9543f904289631e1b2d0a96f94c4d332.png

TrackFormer通过自回归处理视频实现联合检测和多目标跟踪。该体系结构以检测器为基础,由用于图像特征提取的CNN、用于图像特征编码的Transformers 编码器和Transformers解码器组成,Transformers解码器应用自关注和编译码器的注意力,产生带有包围框和类信息的输出嵌入。在帧t = 0时,解码器将Nobject对象查询(白色)转换为输出嵌入或初始化新的轨迹查询或预测背景类(交叉)。在随后的帧中,解码器处理Nobject + Ntrack查询的联合集合,以跟踪或删除(蓝色)现有的轨道以及初始化新的轨道(紫色)。

ae6dd2192619bd7ec019d0e3d6b64c4a.png

TrackFormer编码器-解码器架构。作者用方括号表示张量的维数

验证实验

作者在两个mochallenge基准上展示了TrackFormer的跟踪结果,即MOT17和MOTS20。此外,作者在消融研究中验证了个人的贡献。

TrackFormer遵循CNN特征提取和Transformers编码器-解码器架构。前者是通过ResNet101骨干实现的,编码器和解码器都应用了6层单独的特征宽度256。每个注意层应用8个注意头的多自我注意。作者不使用主干的DC5(扩张型conv5)版本,因为这将导致与最后剩余阶段的较大分辨率相关的大量内存需求。然而,作者希望DC5或任何其他更重的骨干,或更高的分辨率,能够进一步改善结果,并将其留给未来的工作。

bcc626551726142a50ca4b0f6402c8f9.png

在选定的MOTS20测试序列上,作者将TrackFormer分割结果与流行的Track R-CNN进行比较。通过像素掩模精度的差异,可以清楚地看出TrackFormer在MOTSA方面的优势

ac45f2d6f28dfddaff8dc24d3d523caa.png

在MOT17测试集上评估的现代多目标跟踪方法的比较。作者报告了数据集提供的三组公共检测以及在线和离线方法之间的平均结果。在所有的跟踪方法中,TrackFormer在MOTA方面取得了最先进的结果。箭头指示低或高的最优度量值。

bcf19fb7c7731f0ae7d6625fa98c4c0a.png

在MOTS20训练集和测试集上评价现代多目标跟踪和分割方法的比较。TbD所指出的方法最初是通过检测进行跟踪,没有分割。因此,他们在SDP公共检测上进行评估,并预测带有附加口罩的R-CNN,在MOTS20上进行微调。TrackFormer在motssa和IDF1两套上实现了最先进的结果。

结论

作者提出了一种新的基于Transformers的检测和多目标跟踪的端到端统一方法。作者的TrackFormer体系结构引入了跟踪查询嵌入,它以自回归的方式在一个序列上跟踪对象。Transformers编码器-解码器体系结构将每个轨道查询转换为其相应对象的变化位置。TrackFormer associates只通过注意力操作进行跟踪,不依赖任何额外的匹配、图形优化、运动或外观建模。作者的方法实现了多目标跟踪和分割的最先进的结果。作者希望这种新的注意力跟踪模式将促进未来在视频检测和跟踪方面的工作。

论文下载:https://arxiv.org/pdf/2101.02702.pdf

每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。

 
 

好消息!

小白学视觉知识星球

开始面向外开放啦👇👇👇

 
 

ac23c194d8da3ae505b180b4277bbdac.jpeg

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。


下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。


下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。


交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值