卡尔曼滤波out!Mamba主宰多目标跟踪!

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

3ec2f454bbcabf5129eeeccc88db1531.jpeg

0. 这篇文章干了啥?

多目标跟踪(MOT)是一项基础性的计算机视觉任务,旨在定位感兴趣的对象并在视频帧之间建立关联以形成轨迹。它在各个领域有着广泛的应用,包括自动驾驶、人类行为分析和机器人技术。基于检测的跟踪(Tracking-by-Detection)因其简洁的设计而成为主流范式,该范式包含两个主要步骤:1) 使用现成的检测器获取对象的边界框;2) 基于外观或运动线索将这些检测关联成轨迹。过去十年,该范式取得了显著进展,特别是在具有可区分外观和简单运动模式的场景中。

尽管这些跟踪器在行人跟踪基准测试中表现出色,但在由各种快速移动和辨识度较低的外观所构成的复杂场景中,其有效性显著下降。DanceTrack和SportsMOT遇到的主要挑战在于数据关联阶段。更具体地说,这些挑战源于对象外观线索在区分不同对象时的不有效性,以及传统运动预测器(如卡尔曼滤波器)在具有非线性运动模式和频繁遮挡的场景中准确预测对象位置的不足。

为了应对这些复杂场景带来的挑战,我们将注意力转向利用运动信息进行数据关联。鉴于外观线索的不可靠性,我们的重点是设计一个可学习的运动预测器,该预测器仅从对象轨迹序列中捕获对象运动模式。虽然长短期记忆网络(LSTM)和Transformer架构在序列建模中都很突出,但它们面临着不同的挑战。LSTM因其训练效率低下和长期建模能力有限而受到批评,而Transformer在推理过程中相对于序列长度的计算复杂度为二次方。近年来,状态空间模型(SSMs)在优化性能和计算复杂度方面显示出潜力。这些模型通过卷积计算捕获序列信息,并在推理过程中实现接近线性的复杂度。最近的一项进展,Mamba,将选择性机制集成到SSM中,以关注序列数据的重要部分,类似于注意力机制。受Mamba在序列数据建模中成功的启发,我们将其引入到多目标跟踪中,以捕获复杂的对象运动模式。因此,我们提出了一种可学习的运动预测器,即Mamba运动预测器(MTP),它以对象轨迹的历史运动信息为输入,采用双向Mamba编码层来编码运动信息并预测对象的下一步运动。随后,基于轨迹片段预测边界框与当前帧检测之间的交并比(IoU)相似性进行数据关联。实验结果验证了MTP的有效性,特别是其性能显著优于经典的卡尔曼滤波器。

尽管我们利用MTP在相邻帧之间进行对象关联,但我们还扩展了其用途以实现长期关联。具体来说,为了重新建立由于遮挡或检测器故障而丢失的轨迹片段,我们引入了一个轨迹片段修补模块。该模块通过以自回归方式使用MTP来补偿缺失的观测点,即将其自身的预测作为输入来继续预测丢失轨迹片段的下一步运动。在轨迹片段修补的帮助下,我们提出的跟踪器MambaTrack生成了更一致的轨迹。

下面一起来阅读一下这项工作~

1. 论文信息

标题:MambaTrack: A Simple Baseline for Multiple Object Tracking with State Space Model

作者:Changcheng Xiao, Qiong Cao, Zhigang Luo, Long Lan

机构:国防科技大学、京东

原文链接:https://arxiv.org/abs/2408.09178

2. 摘要

“检测后跟踪”一直是多目标跟踪(MOT)领域的主流范式。这些方法通常依赖于卡尔曼滤波器来估计目标的未来位置,假设目标运动是线性的。然而,在舞蹈和体育等场景中跟踪表现出非线性和多样化运动的目标时,这些方法就显得力不从心了。此外,在MOT中利用基于学习的运动预测器的研究还非常有限。为了应对这些挑战,我们转向探索数据驱动的运动预测方法。受到状态空间模型(SSM),如Mamba,在具有接近线性复杂度的长期序列建模中巨大潜力的启发,我们引入了一个基于Mamba的运动模型,名为Mamba运动预测器(MTP)。MTP旨在模拟如舞者和运动员等目标的复杂运动模式。具体来说,MTP以目标的时空位置动态作为输入,利用双Mamba编码层捕获运动模式,并预测下一个运动。在现实场景中,由于遮挡或运动模糊,目标可能会被遗漏,从而导致其轨迹过早终止。为了应对这一挑战,我们进一步扩展了MTP的应用。我们以自回归的方式使用MTP,通过利用其自身的预测作为输入来补偿缺失的观测值,从而有助于生成更一致的轨迹。我们提出的跟踪器MambaTrack在Dancetrack和SportsMOT等基准测试中表现出色,这些基准测试的特点是运动复杂且遮挡严重。

3. 效果展示

ea9ec4ff2bb3a161792497894dbbf611.png

4. 主要贡献

综上所述,本工作的主要贡献如下:

• 我们引入了一种数据驱动的运动预测器,即Mamba运动预测器(MTP),旨在在复杂场景中建模多样化的运动模式。

• 我们提出了一种轨迹片段修补模块,该模块以自回归方式使用MTP来重新建立丢失的轨迹片段。推荐学习:国内首个面向三维点云高阶班实战课程!

• 配备设计的MTP和轨迹片段修补模块,所提出的在线跟踪器MambaTrack有效地处理了复杂舞蹈和运动场景中的挑战性数据关联问题。作为基于运动的在线跟踪器,MambaTrack在两个合并的基准测试(DanceTrack[42]和SportsMOT[9])上达到了最先进的性能。

5. 基本原理是啥?

在 DanceTrack和 SportsMOT等场景中,多目标跟踪的复杂性主要源于目标复杂的运动模式以及它们之间的严重遮挡。为了应对这一挑战,我们采用分而治之的策略,分别处理活跃轨迹(Tactive)和丢失轨迹(Tlost)。首先,我们利用本文提出的运动预测器 Mamba Motion Predictor,基于活跃轨迹的历史观测数据,预测其在当前帧中的空间位置。其次,对于缺少观测数据的丢失轨迹,我们采用自回归方法填补缺失信息后再进行预测。后续小节将对这些过程进行详细解释。

b13566207ac6b7dd5c54f69cb32b9461.png aa07d5deaec52feac1e0b520ae279e7a.png

6. 实验结果

ab6bb6c903b3ba9e590d15da56bb43b0.png 1526b2491e3fc4a41ed8626214f8d44d.png f980f63f8a6f10d7cd648ffd7f0148e5.png

7. 总结 & 未来工作

本文介绍了一种基于运动的在线跟踪器,该跟踪器包括运动预测器和轨迹片段拼接模块。基于状态空间模型 Mamba 的 Mamba Motion Predictor 能够有效建模目标的时序动态,从而便于连续帧中目标之间的准确关联。此外,为了增强轨迹一致性,我们利用运动预测器作为自回归模型来预测丢失轨迹的边界框,从而重新建立这些轨迹。尽管该方法简洁直观,但在复杂运动数据集上的实验结果验证了其有效性。我们旨在将该方法作为基线,促进基于运动的跟踪算法的进一步探索和发展。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

fa3927fb5a2050807e5605544c983170.jpeg

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、大模型、Mamba、扩散模型等

除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

59a366ae5324ab61769c490771120f4d.png
▲长按扫码添加助理:cv3d008
3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

d7dde1c49eb0ed8e74fa811068008aab.jpeg

▲长按扫码加入星球
3D视觉工坊官网:www.3dcver.com

具身智能、3DGS、NeRF结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真C++、三维视觉python、dToF、相机标定、ROS2机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

7aadb8785b477b1ac2f1dae9171de497.jpeg
▲ 长按扫码学习3D视觉精品课程
3D视觉模组选型:www.3dcver.com

1234c31020e8afea8ffa6f4770e21c73.png

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~ 

outside_default.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值