CVPR'23｜ViPT：多模态单目标跟踪算法新SOTA！

最新推荐文章于 2025-03-28 18:02:30 发布

自动驾驶之心

最新推荐文章于 2025-03-28 18:02:30 发布

阅读量4.4k

点赞数 1

文章标签：目标跟踪算法深度学习人工智能计算机视觉

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247535820&idx=4&sn=3c508ce1f48294821c492c420bbe5765&chksm=ceb86105f9cfe8139acc6a9c4abfdfbb3185b3baa6221acb3534e0496bbc0021b02639b1029f&scene=126&sessionid=0

版权

作者 | GlobalTrack 编辑 | 极市平台

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

点击进入→自动驾驶之心【目标跟踪】技术交流群

后台回复【目标跟踪综述】获取单目标、多目标、基于学习方法的领域综述！

导读

本文设计了一个可以用于RGB-D，RGB-T和RGB-E跟踪的视觉提示追踪框架。在提示器帮助下，现有的基础模型可以有效地从RGB域适应下游多模态跟踪任务。

论文链接：https://arxiv.org/pdf/2303.10826.pdf

源码链接：https://github.com/jiawen-zhu/ViPT

简介

基于RGB的跟踪算法是视觉目标跟踪的一个基础任务。近些年已经出现了大量精彩的工作。尽管获得了有希望的结果，但在一些复杂和角落场景中（极端照明，背景杂波和运动模糊），基于纯RGB序列的目标跟踪算法仍然容易失败。多模态跟踪吸引了很多研究关注，由于可以通过跨模态补充信息获得更鲁棒追踪结果。多模态包括RGB+深度（RGB-D），RGB+热红外（RGB-T）和RGB+事件（RGB-E）。

多模态追踪的主要问题是缺乏大规模数据集。考虑到数据集的限制，多模态跟踪方法通常使用预训练的基于RGB跟踪器，并对面向任务的数据集进行微调。尽管多模态跟踪有效，但面向任务的全调优方法有一定缺点：1. 对模型进行全微调是即费事又低效，且对参数存储负担很大，对很多应用程序不友好，且很难转移部署，2. 由于标签有限，无法利用大规模数据集上训练的基础模型预训练知识。

最近在NLP领域中，研究者将文本提示（prompt）注入下游语言模型，以有效利用基础模型的表示潜力，此方法称为提示调整（Prompt-tuning）。之后一些研究尝试冻结整个上游任务模型，仅在输入侧添加一些可学习参数学习参数以学习有用的视觉提示。一些研究展示该方法有巨大的潜力并期待成为全微调的替代。

本文设计了一个可以用于RGB-D，RGB-T和RGB-E跟踪的视觉提示追踪框架。在提示器帮助下，现有的基础模型可以有效地从RGB域适应下游多模态跟踪任务。另外设计了模态互补提示器（Modality-complementary prompter，MCP），为面向任务的多模态跟踪生成有效的视觉提示。该模块中辅助模态输入简化为少量提示，而不是额外的网络分支。

本文方法

问题定义

给定一个有初始目标包围框视频，RGB追踪器目标是学习一个追踪器预测在后续帧中目标的包围框。对于多模态跟踪任务，引入了一种额外的时空同步输入流，将模型输入扩展为，下标表示其他辅助模态。多模态跟踪器可以描述为：。

一般的，RGB跟踪器可以分解为两部分：。表示特征提取和交互函数。包围框头网络估计最终结果。是一个Transformer backbone。输入原型和搜索帧首先嵌入补丁，平坦化一维有位置嵌入的令牌，。令牌序列聚合为。将令牌序列传入层标准Transformer编码器。

多模态提示追踪

多模态追踪提供了额外的辅助模态流，该辅助流在时间上与RGB同步并在空间上对齐。本文方法首先将两个流和分别传入一个补丁嵌入层。每个输入流被映射并平坦化为维潜在空间。定义RGB令牌为和辅助令牌。之后传入基础模型，和传入级联模态互补提示器（Cascade modality-complementary prompter，MCP）生成特定模态提示。学习得到的提示以残差连接方式加入原始RGB令牌：

这里防止阶段感知MCP，以充分利用不同模态语义理解。直接将提示加入基础模型中间层特征也使本文ViPT算法快速且简单地应用在已有的预训练基础跟踪器中。与包含可训练地提示学习网络和预测头的提示调整方法不同，本文ViPT中所有RGB模态相关网络参数全部冻结，包括补丁嵌入，特征提取交互和预测头。

模态互补提示器

一些研究开始探索在冻结的预训练模型中引入一些可学习参数学习有效的视觉提示。通过微调一小部分参数，在大范围视觉任务上取得了令人映像深刻的性能。更有挑战性的任务不仅是缩小上游与下游任务差异，而且要适当有效地利用模态间信息。本文的MCP模块用于学习两个输入流的提示，过程描述为：

特殊的，，。通过这种方式，MCP从分提取下游任务不同语义级别的特征表示，同时学习了两种模态间互补性，并生成了更鲁棒的提示。混合表示可以有助于中间层基础特征和学习提示的平衡和互补，也有助于基本与辅助模态的平衡与互补。

MCP包括黏贴基础流和辅助流中间令牌序列的两个输入分支。MCP包括三个主要步骤：1. 投影到低维潜在嵌入，2. 多模态内部互补表示的过滤和自适应，3. 投影到原始嵌入维度，生成可学习的多模态视觉提示。考虑到单一模态令牌流有一定的冗余特征，提示块在实际使用时应该包含尽可能少的参数。这里将每个流投影到维度。

本文算法中，输入通道数为768，所有提示块中约简因子设置为。投影函数和是简单的卷积层。基础嵌入然后执行空间凹操作，该操作首先在所有空间维度上应用平滑的空间Softmax，之后通过应用通道感知空间注意力掩码产生增强嵌入。

之后通过加性绑定获得混合模态嵌入，学习得到的嵌入可以表示为：

优化多模态追踪模型由基础模型参数初始化。在提示微调期间，数据流在全部模型传播但只更新视觉提示学习的一些参数对应梯度值。另外本文方法击败了针对各种模式的两个范式全微调范式。优化过程可以描述为：

通过仅微调一些提示学习的参数，模型能在较短时间的帧内获得收敛。

提示微调优势

提示微调比全微调有更好的适应性，尤其是对于大规模数据稀缺的下游多模态跟踪任务。在下游数据集完全微调可能会破坏预训练参数质量，跟踪器更可能过拟合或得到次优状态。
提示微调允许RGB和RGB+辅助模态跟踪之间更紧密关联，以学习模态互补性。RGB和辅助模态具有不同数据分布，辅助模态输入提供额外特征提取网络可能会降低模态间连通性。
提示微调可训练参数显著比全微调少，只需更少的训练周期就能部署在各种下游追踪场景且不需要多次存储大量基础模型参数。

实验

DepthTrack是一个大规模长期RGB-D跟踪基准。尽管本文的ViPT是一种短期算法，表1显示ViPT超过了所有之前的SOTA跟踪器并获得了最高的F-score，比基础方法显著提升6.5%

VOT-RGBD2022是最新的RGB-D基准，包含127个短期序列。选择期望平均重叠（Expected average overlap，EAO）为评价指标。表2给出了相关实验结果。可以看出本文ViPT方法超过先前的方法，获得了0.721 EAO，超过基础模型4.5%

RGBT234是大规模RGB-T跟踪数据集，包含具有可见光和热红外对的234个视频。MSR和MPR作为评价指标。表3给出了相关实验结果比较。可以看出本文ViPT取得了最高的MSR（61.7%）,MPR(83.5%)，超过了各精心设计的RGB-T跟踪器，在MSR指标上超过ProTrack1.8%。

LasHeR是一个大规模高度多样性短期RGB-T跟踪基准。在包括245各测试视频序列。图4给出了相关实验结果。可以看出ViPT大幅度超过了以前所有SOTA方法，成功率和精度指标上分别超过第二位算法10.5%和11.3%。

VisEvent是目前最大的视觉-事件基准数据集，本文在320各测试视频上进行比较。本文仅使用由原始事件数据变换来的事件图像。图5给出了相关实验结果。ViPT比OSTrack算法相比在成功率和精度上分别超过5.8%和6.3%。

视频课程来了！

自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、传感器标定、传感器部署、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知、决策规划、轨迹预测等多个方向学习视频，欢迎大家自取（扫码进入学习）

（扫码学习最新视频）

国内首个自动驾驶学习社区

近1000人的交流社区，和20+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（分类、检测、分割、关键点、车道线、3D目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测）、自动驾驶定位建图（SLAM、高精地图）、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！