CVPR 2025 | 多视角目标跟踪新突破！MITracker：高效融合多视角特征，解决遮挡与目标丢失问题！

Amusi（CVer）

于 2025-04-11 23:59:49 发布

阅读量258

点赞数

文章标签：目标跟踪人工智能计算机视觉机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247618173&idx=2&sn=093a5ee3ed013b8b28bd6c605370f84f&chksm=f88df9c324cfcc0bdc5cc4537cbcb07925201e6360b03966dd0c74253071c312238a5690ef3c&scene=126&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号：CVer2233，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

MITracker: Multi-View Integration for Visual Object Tracking

论文：https://arxiv.org/pdf/2502.20111

https://mii-laboratory.github.io/MITracker/

动机：

视觉目标跟踪是计算机视觉领域的核心任务之一，广泛应用于增强现实、自动驾驶等场景。然而，传统的单视角跟踪方法在面对遮挡、目标丢失等挑战时表现不佳。尽管多视角跟踪（MVOT）通过多视角信息的互补性提供了潜在的解决方案，但该领域的发展受到以下限制：

1. 数据集限制：现有的多视角数据集大多局限于特定类别（如行人或鸟类），缺乏通用性。

2. 方法限制：现有的多视角跟踪方法主要依赖于检测和重识别技术，难以实现类无关的目标跟踪。

3. 跨视角信息融合不足：现有的方法在跨视角信息融合方面效果有限，难以应对复杂的空间关系和视角变化。

为了解决这些问题，我们提出了一个新的多视角跟踪数据集 MVTrack 和一个高效的多视角跟踪方法 MITracker，旨在通过多视角信息的融合提升跟踪的鲁棒性和准确性。

本文贡献：

1. MVTrack数据集：我们构建了一个大规模的多视角跟踪数据集，包含234K高质量标注帧，涵盖27个不同类别的物体和9种具有挑战性的跟踪属性（如遮挡、变形等）。MVTrack是首个支持类无关多视角跟踪训练和评估的综合性数据集。

2. MITracker方法：我们提出了一种新颖的多视角跟踪方法MITracker，通过将2D图像特征转换为3D特征体积，并利用鸟瞰图（BEV）引导的多视角信息融合机制，显著提升了跟踪的稳定性和准确性。

3. 性能提升：MITracker在MVTrack和GMTD数据集上均达到了最先进的性能，特别是在遮挡和目标丢失等复杂场景下，恢复率从56.7%提升至79.2%。

MVTrack数据集特性:

● 多视角数据：3-4个同步相机拍摄，确保多视角重叠。

● 丰富类别：涵盖27个日常物体，从小型物体（如笔）到大型物体（如雨伞）。

● 高质量标注：每帧提供精确的2D边界框（BBox）和鸟瞰图（BEV）标注。

● 挑战性属性：包含9种常见的跟踪挑战，如背景杂乱、运动模糊、部分遮挡、完全遮挡、目标消失等。

● 大规模数据：包含260个视频，总计234,430帧，分为训练集、验证集和测试集。

MITracker方法亮点:

1. 多视角特征融合：通过将多视角的2D特征投影到3D空间，并利用BEV引导的特征聚合，显著增强了模型的空间理解能力。

2. 空间增强注意力机制：通过引入3D感知的注意力机制，MITracker能够在目标丢失或遮挡的情况下快速恢复跟踪。

3. 高效跟踪：MITracker能够在任意长度的视频帧中跟踪任意物体，并在多视角场景下保持稳定的跟踪效果。

实验与结果：

我们在MVTrack和GMTD数据集上进行了广泛的实验，MITracker在多个评估指标上均达到了最先进的性能。特别是在多视角场景下，MITracker的表现显著优于现有的单视角跟踪方法，展示了其在复杂场景下的强大鲁棒性。

未来工作：

我们计划进一步扩展MVTrack数据集，增加室外场景和更多类别的物体，以提升模型的泛化能力。同时，我们也将探索减少对相机校准的依赖，使MITracker在更多实际场景中应用。

总结：

MITracker通过多视角信息的有效融合，解决了传统单视角跟踪中的遮挡和目标丢失问题，为多视角视觉目标跟踪领域提供了新的解决方案。我们相信，MVTrack数据集和MITracker方法将为未来的研究提供强有力的支持，推动视觉目标跟踪技术的进一步发展。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

CVPR 2025 论文和代码下载

在CVer公众号后台回复：CVPR2025，即可下载CVPR 2025论文和代码开源的论文合集

ECCV 2024 论文和代码下载

在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者论文投稿+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer2233，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看