【论文翻译】Multi-modal Visual Tracking Based on Textual Generation——多模态基于文本生成的视觉跟踪

最新推荐文章于 2024-10-10 11:28:59 发布

soulmode

最新推荐文章于 2024-10-10 11:28:59 发布

阅读量63

点赞数

文章标签：计算机视觉人工智能深度学习

原文链接：https://www.sciencedirect.com/science/article/pii/S1566253524003099

版权

文章目录

Multi-modal Visual Tracking Based on Textual Generation——多模态基于文本生成的视觉跟踪
摘要
1. 引言
2. 相关工作
- 2.1 多模态跟踪
- 2.2 多模态大语言模型
3. 方法论
4. 实验
- 4.1 实验设置
4.2. 主实验结果分析
后面的有时间再翻译

Multi-modal Visual Tracking Based on Textual Generation——多模态基于文本生成的视觉跟踪

摘要

由于其广泛的潜在应用，多模态跟踪引起了极大的关注。现有的多模态跟踪方法通常在RGB跟踪的基础上融合不同视觉模态的数据。然而，仅仅关注视觉模态是不够的，因为跟踪数据的匮乏。受大模型最近成功的启发，本文提出了一种基于文本生成的多模态视觉跟踪（MVTTG）方法，以解决缺乏语言信息和忽略目标与搜索区域之间语义关系的视觉跟踪局限性。为此，我们利用大模型生成图像描述，使用这些描述提供关于目标外观和运动的补充信息。此外，为了增强视觉和语言模态之间的一致性，我们采用提示学习并设计了一个视觉-语言交互提示管理器（V-L PM），以促进视觉和语言领域之间的协同学习。在多个基准数据集上进行的MVTTG实验证实了图像描述在多模态视觉跟踪中结合的有效性和潜力。

关键词：多模态跟踪；图像描述；视觉和语言模态；提示学习。

1. 引言

关于大型语言模型（LLM）的研究[1, 2, 3]明确展示了其在多模态下游任务中的强大能力。与视觉模态相比，图像描述对跟踪任务具有诸多优势[4, 5, 6, 7, 8, 9]，包括以下几个关键方面：

丰富的语义信息：图像描述为跟踪过程提供了重要的语义洞察，包括类别、形状、运动等方面。这些方面对于精准的目标定位和有效的特征表示是不可或缺的。
增强的目标定位：图像描述提供了关于目标定位的有用提示，提高了跟踪算法在准确定位目标方面的精度。这在涉及目标遮挡或复杂背景的情况下尤为重要，图像描述在这些场景中是精确识别目标的补充帮助。
提高跟踪器的可解释性：图像描述的结合增加了跟踪器决策机制和关键线索的透明度。这种高度的可解释性促进了对模型行为的深入理解，使研究人员能够获得深刻的见解。

由于图像注释在视觉跟踪中的普遍存在，现有的多模态跟踪方法主要基于RGB跟踪，重点是整合各种视觉模态[10, 11, 12, 13, 14, 15, 16, 17, 18]，如图1(a)所示。这些方法虽然在目标表示方面提供了宝贵的见解，但由于多模态视觉跟踪标签中缺乏语言信息，往往忽略了目标本身与搜索区域之间的语义关系。语言信息仍然是这些方法中未被探索的方面。

受大型模型成功发展的启发，这些模型的卓越生成能力使得解决多模态视觉跟踪中缺乏语言信息标签的缺点成为可能。为此，我们提出了一个多模态图像描述共生成模块（MD-CGM），结合使用大型模型生成图像描述。随后，语言编码器将这些图像描述处理为有意义的特征嵌入，最终与视觉特征交互，如图1(b)所示。我们将此方法称为基于文本生成的多模态视觉跟踪方法（MVTTG）。通过利用大型模型，我们可以利用语言的表达能力来描述目标物体的外观和运动。图像描述提供了宝贵的语义信息，补充了视觉数据，丰富了跟踪对象的特征表示。MVTTG的概念框架如图2所示。
在这里插入图片描述

图1：不同跟踪框架的示意图 (a) 传统的多模态跟踪框架 (b) 提出的基于文本生成的多模态视觉跟踪框架

在视觉和语言编码器中，我们采用提示学习（Prompt Learning）来适应模型的变化，同时保持原始权重冻结。为了在跟踪过程中对齐视觉和语言提示，MVTTG引入了一种创新的学习策略，即视觉-语言交互提示管理器（Visual-Language Interaction Prompt Manager, V-L PM）。该策略建立了视觉和语言提示之间的跨模态关系，生成有效的线索以弥合两种模态之间的差距。我们的动机可以总结为以下几个方面：

提示学习：大多数现有的多模态跟踪方法主要涉及对RGB跟踪方法的全面微调。然而，由于多模态视觉跟踪数据集的稀缺，这种微调过程存在遗忘预训练宝贵知识的风险，并可能导致多模态视觉跟踪中的过拟合。为了解决这些挑战，我们在视觉和语言编码器中引入了提示学习，在训练过程中仅学习模态特定的提示，而其他参数则保持冻结。本质上，引入提示学习的主要目标是确保视觉和语言编码器在多模态视觉跟踪任务中的有效协作，从而提高信息融合和特征表示的效率，进而增强多模态视觉跟踪的性能。

语义丰富性：现有的多模态视觉跟踪方法主要依赖于RGB跟踪，因为缺乏语言信息标签，从而忽略了目标与搜索区域之间的语义关系。图像描述可以提供有关对象属性、空间关系和上下文线索的详细信息，但由大模型直接生成的图像描述可能缺乏语义信息的丰富性，并包含大量噪音语义。为了解决这个问题，我们利用检测器辅助大模型，并引入多模态图像描述共生模块（Multimodal Image Description Co-Generation Module, MDCGM）来解决上述问题。

跨模态关系构建：由于模态之间的差异，直接连接或添加视觉和语言模态的特征可能会导致混淆，使模型难以理解不同模态之间的语义关系。这反过来可能导致模型关联不相关的信息，从而错误地降低其性能。为了解决这个问题，我们提出了视觉-语言交互提示管理器（V-L PM），它有效地弥合了语言和视觉模态之间的差距，为每个多模态跟踪场景生成有意义的任务提示。视觉和语言提示的融合使MVTTG能够利用两种模态的互补信息，从而更全面地理解跟踪对象。

在这里插入图片描述

图2：基于文本生成的多模态视觉跟踪概念框架

因此，MVTTG能够为多模态跟踪任务生成更全面和准确的表示。图像描述与视觉特征的融合使MVTTG能够应对多模态跟踪中常见的挑战，如遮挡、复杂背景和外观变化。我们的工作贡献总结如下：

我们引入了基于文本生成的多模态视觉跟踪方法（MVTTG），通过使用大模型共同生成图像描述来丰富跟踪对象的特征表示。
为了连接视觉编码器和语言编码器中学到的提示，我们提出了视觉-语言交互提示管理器（V-L PM），它弥合了视觉和语言模态之间的差距，并促进了协同学习。
为了验证我们方法的有效性，我们在三个不同的模态跟踪数据集上进行了严格的实验。实验证据明确表明了我们提出方法的有效性。

2. 相关工作

2.1 多模态跟踪

多模态目标跟踪作为计算机视觉和模式识别中的一个重要研究方向，旨在整合来自不同数据源的信息，如深度图、热成像等，以提高目标跟踪的性能和鲁棒性。例如，[19]提出了一种包含三种不同融合机制的多模态融合框架：像素级融合、特征级融合和响应级融合。[20]则聚焦于解决RGBT跟踪中的各种挑战，该方法通过属性解耦融合过程，从而增加了融合能力，同时减少了对大规模训练数据的依赖。[21]也通过不同的特征融合方法提高了跟踪性能。然而，尽管取得了一些成果，这些研究主要集中在特征级融合，由于数据稀缺性，这种方法并不是最优的。在这种情况下，基于线索学习的视觉跟踪极大地缓解了数据稀缺的压力。ProTrack [22]是一种新型多模态提示跟踪器，旨在通过提示范式将多模态输入转换为单一模态，从而实现高性能的多模态跟踪。[23]提出了一种新的参数高效的视觉微调框架ViPT，在多个下游跟踪任务中（包括RGB+深度、RGB+热成像和RGB+事件跟踪）表现优于全微调范式。结合语言模态的视觉跟踪也引起了一些研究者的关注。例如，SATracker [24]框架通过同时学习视觉和文本信息，引入目标增强模块（TEM）和语义感知模块（SAM），优化视觉-语言跟踪。同步学习骨干网络结构（SLB）捕捉目标中心语义，密集匹配损失提高了跟踪性能。通过强化目标相关特征和语义指导，提高了跟踪器的精度和泛化能力。[9]提出了一种联合视觉定位和跟踪的框架，将定位和跟踪重新定义为统一任务。具体而言，他们提出了一个多源关系建模模块，有效地建立了视觉-语言参考并测试了它们之间的关系。

2.2 多模态大语言模型

在视觉语言领域，一些研究尝试使用预训练模型来提高多模态任务的性能【25, 26, 27, 28, 29】。其中，CLIP【30】是一种对比语言-图像预训练方法，在多个视觉分类任务中以零样本或少量样本达到最先进的性能，表明它学到了视觉和语言的通用表示。然而，CLIP的预训练成本高，且需要大量计算资源和数据。此外，CLIP无法生成文本，因此不能直接应用于图像字幕生成等任务。

为了解决这些问题，BLIP【31】提出了自举语言-图像预训练方法，该方法使用预训练的视觉编码器和预训练的语言模型，并在它们之间添加一个可训练的交叉注意力层进行预训练。BLIP在多个视觉语言任务中实现了最先进的结果，同时减少了预训练参数的数量和成本。BLIP能够生成文本并处理多个图像或片段作为输入。

BLIP2【32】是BLIP的改进版本，提出了一种新的预训练范式，可以任意组合和充分利用两个预训练的视觉编码器和大语言模型（LLM），而无需对整个架构进行端到端的预训练。BLIP2在两个预训练模型之间添加了一个轻量级的查询变压器（Q-Former），以弥合视觉模型和语言模型之间的模态差距。BLIP2在多个视觉语言任务中取得了最先进的结果，同时显著减少了训练参数的数量和预训练成本。

3. 方法论

图3展示了我们提出的跟踪器的整体架构，主要由多模态图像描述共同生成模块（MDCGM）、视觉编码器、语言编码器和视觉-语言交互提示管理器组成。

给定一张视觉图像和相应的目标类别标签，在输入模型之前，首先由MDCGM生成与图像搜索区域对齐的描述。目标对象标签以“一个{类别名称}对象”的形式呈现，以对应图像模板。随后，我们使用视觉和语言编码器将这些描述嵌入到特定的特征空间中，生成图像和语言的特征编码。视觉编码器提取图像特征，并将图像信息转化为高维向量表示。相比之下，语言编码器同时将目标类别标签转化为语义向量，以传达关于目标对象的语言信息。因此，我们获得了分别对应图像和语言信息的跨模态特征编码。

在编码过程中，视觉和语言特征被输入到视觉-语言交互提示管理器中。该模块起到关联和建模的作用，有效捕捉视觉和语言特征之间的关系。这种跨模态交互学习增强了跟踪器对被跟踪对象的理解。交互提示管理器提供了一种有效的方法来融合视觉和语言特征，优化跟踪器的性能。

最后，关联了文本特征的视觉特征通过框头生成被跟踪对象的边界框。通过上述过程，我们基于文本生成的多模态视觉跟踪方法（MVTTG）利用了图像描述信息的丰富性，并有效利用了视觉和语言特征之间的交互关系，显著提高了多模态跟踪任务中的跟踪性能和鲁棒性。

在这里插入图片描述

图3：我们MVTTG的总体架构概览
该架构由一个N层的视觉编码器和语言编码器组成，用于从图像和语言中提取特征。这些特征通过视觉-语言交互提示管理器进行融合，以实现有益的信息交互，从而进一步学习更有效的提示。

3.1 提示学习的构建和调优

提示学习在各种下游任务中的卓越表现证明了其内在潜力【33, 34, 30, 35, 36】。受此启发，我们从特征提取阶段的视觉提示学习中汲取了见解。具体来说，对于具有N层的视觉和语言编码器，我们将第i层的RGB标记记为 $E^i_{RGB}$ ，文本标记记为 $E^i_{Text}$ ，语言提示标记记为 $P^i_{L}$ ，视觉提示标记记为 $P^i_{V}$ 。所有提示标记随后输入视觉-语言交互提示管理器，以生成更强大的提示，随后通过残差连接与 $E^i_{RGB}$ 集成，然后输入视觉编码器：

$I_i = E^i_{RGB} + PM(E^i_{RGB}, P^i_{V}, P^i_{L}), \tag{1}$

其中， $I_i$ 表示输入到视觉编码器第i层的输入， $PM(\cdot)$ 表示视觉-语言交互提示管理器。值得注意的是，在训练过程中，我们只优化 $P^i_{L}$ 、 $P^i_{V}$ 及与V-L PM相关的参数，而保持所有其他参数不变。

3.2 多模态图像描述共生成模块

为了从给定的视觉图像生成更好的图像描述，我们基于大模型BLIP2【32】、ChatGLM2【37】以及检测器的共同学习构建了MDCGM，具体结构如图4所示。首先，MDCGM将搜索图像 $x$ 作为输入。然后，它通过大模型BLIP2生成初步图像描述 $t$ ，并通过检测器生成搜索图像的目标类别 $o$ 。接下来，我们使用定制的提示模板 $H(\cdot, \cdot)$ 来构建初步生成的图像描述 $t$ 和目标类别 $o$ 作为提示 $c$ ，其中 $H(\cdot, \cdot)$ 的格式为“请根据我提供的提示修改这个句子：{目标类别}。句子是{图像描述}”。最后，提示 $c$ 通过ChatGLM2生成修改后的图像描述 $t^{'}$ 。整体流程如下：

$\quad o = D(x), \tag{2}$
$\quad t' = C(c), \tag{3}$

其中 $B(\cdot)$ 、 $D(\cdot)$ 和 $C(\cdot)$ 分别表示BLIP2、检测器和ChatGLM2。
在这里插入图片描述

图4：MDCGM的结构。
它包括三个步骤：(I) BLIP2：初步生成图像描述，(II) 检测器：图像对象检测，以及(III)
ChatGLM2：图像描述修改。对于在第一步和第二步中生成的结果，我们构建一个提示模板，在大模型的帮助下生成修改后的图像描述。

3.3 视觉和语言特征提取

语言编码器：自推出以来，CLIP【30】备受关注。在我们的MVTTG框架中，我们利用CLIP的文本编码器作为语言编码器。在提示学习方面，我们遵循【38】中的配置。关于MDCGM提取的图像描述 $c_x$ 和目标对象类别标签 $c_t$ 的提示模板构建，我们进行如下操作：

$c_x = \phi_L(a_1, \ldots, \text{TOKENIZER}(\text{"A man riding a motorcycle ... road."}), \ldots, a_m), \tag{4}$
$c_t = \phi_L(b_1, \ldots, \text{TOKENIZER}(\text{"An object of motorcycle."}), \ldots, b_n), \tag{5}$

其中， $a_i \in \mathbb{R}^D$ 和 $b_j \in \mathbb{R}^D$ 分别表示第i个和第j个提示向量，均由可学习参数组成，其中 $D = 768$ 表示向量维度。公式中， $m = 36$ 和 $n = 16$ 分别对应图像描述和目标对象类别标签的提示向量数量。

视觉编码器：为了提取视觉特征，我们采用视觉变换器（VIT）【39】来学习综合的视觉表示。给定搜索图像 $I_x \in \mathbb{R}^{3 \times H_x \times W_x}$ 和模板图像 $I_t \in \mathbb{R}^{3 \times H_t \times W_t}$ ，它们首先被嵌入成小块并展平成一维标记。这些标记随后被连接，并作为视觉编码器的输入。

3.4 视觉-语言交互提示管理器

在这里插入图片描述

图5：所提出的V-L PM的详细设计。
来自各种视觉模态的输入首先通过基于门机制的融合机制生成增强的视觉提示。这些提示然后通过交叉注意机制与语言提示标记进行交互。

有效整合不同模态的信息对于跟踪性能尤为重要。为了缩小语言和视觉模态之间的差距，我们提出了视觉-语言交互提示管理器，如图5(a)所示。在V-L PM中，我们建立了视觉和语言之间的跨模态关系，将图像模板和搜索区域之间的关系映射到目标对象标签和图像描述之间的关系。对于视觉和语言提示，我们构建了自适应空间通道提示器，以分别计算不同模态在空间和通道方向的特定特征，如图5(b)所示。空间注意力使模型能够在视觉领域内定位与语言描述相关的图像区域，从而促进语言引导的视觉注意力。同时，通道注意力促进了跨不同通道的特征信息交换，促进了不同模态间信息的无缝整合和传递。这些操作可以提高多模态模型建模不同模态特征间关联性的能力，从而实现更准确和有效的多模态信息处理，最终促进模态间的交互。特别地，对于视觉编码器的第i层，我们提供RGB标记和模态标记，分别表示为 $E^{i}_{RGB} \in \mathbb{R}^{N_v \times C}$ 和 $P^{i}_{M} \in \mathbb{R}^{N_v \times C}$ ，其中 $N_v = H \times W$ 表示视觉模态图像块标记的数量， $C$ 是向量维度， $\ldots, N$ 。增强的嵌入表示 $M^{i}_{RGB} \in \mathbb{R}^{C \times H \times W}$ 和 $M^{i}_{M} \in \mathbb{R}^{C \times H \times W}$ 可以通过以下公式获得：

$M^{i}_{RGB} = f_{rs}(Conv(E^{i}_{RGB})), \tag{6}$
$M^{i}_{M} = f_{rs}(Conv(P^{i}_{M})), \tag{7}$

其中， $f_{rs}(\cdot)$ 表示重塑向量维度的操作， $C o n v$ 表示一个 $\times 1$ 卷积层。

接下来，我们采用门融合机制来结合增强的嵌入表示 $M^{i}_{RGB}$ 和 $M^{i}_{M}$ 。融合后的输出 $P^{i}_{fuse}$ 可以通过以下公式获得：

$\gamma = Sigmoid(W \cdot Concat(M^{i}_{RGB}, M^{i}_{M})), \tag{8}$
$P^{i}_{fuse} = f_{rs}(Conv((1 - \gamma) \cdot M^{i}_{RGB} + \gamma \cdot M^{i}_{M})), \tag{9}$

其中， $W$ 表示可学习参数， $C o n c a t$ 表示沿通道维度的连接操作。对于视觉提示标记和语言提示标记，分别表示为 $P^{i}_{V} \in \mathbb{R}^{N_p \times C}$ 和 $P^{i}_{L} \in \mathbb{R}^{N_p \times C}$ ，其中 $N_p$ 是提示标记的数量。我们为提示在空间和通道维度上的交互构建了自适应空间通道提示器。

首先，对于通道维度，通过 $P^{i}_{V}$ 和 $P^{i}_{L}$ 生成通道注意力图，结果为 $A^{i}_{c} \in \mathbb{R}^{C \times C}$ 。对于空间维度，生成空间注意力图，表示为 $A^{i}_{s} \in \mathbb{R}^{2N_p \times 2N_p}$ 。在 $A^{i}_{s}$ 中，可以提取视觉空间提示 $P^{i}_{V \rightarrow s} \in \mathbb{R}^{N_p \times N_p}$ 和语言空间提示 $P^{i}_{L \rightarrow s} \in \mathbb{R}^{N_p \times N_p}$ 。随后，视觉提示 $P^{i}_{V}$ 和语言提示 $P^{i}_{L}$ 与 $A^{i}_{c}$ 交互形成通道提示标记 $P_{c\rightarrow V}^{i} \in \mathbb{R}^{N_p \times C}$ 和 $P_{c \rightarrow L}^{i} \in \mathbb{R}^{N_p \times C}$ 。此外，空间提示 $P^{i}_{V \rightarrow s}$ 和 $P^{i}_{L \rightarrow s}$ 分别与 $P^{i}_{V}$ 和 $P^{i}_{L}$ 交互，创建空间跨模态提示标记 $P^{i}_{V \rightarrow s \rightarrow L}$ 和 $P^{i}_{L \rightarrow s \rightarrow V}$ 。我们将 $P_{c \rightarrow V}^{i}$ 、 $P_{c \rightarrow L}^{i}$ 、 $P^{i}_{V \rightarrow s \rightarrow L}$ 和 $P^{i}_{L \rightarrow s \rightarrow V}$ 称为提示交叉亲和力。最后，通过提示交叉亲和力的交叉融合获得空间和通道特征共享的特征。具体过程如下：

$A^{i}_{c} = f_t(P^{i}_{V}) \odot P^{i}_{L}, \tag{10}$
$A^{i}_{s} = Concat(P^{i}_{V}, P^{i}_{L}) \odot f_t(Concat(P^{i}_{V}, P^{i}_{L})), \tag{11}$
$P^{i}_{VL} = Concat(P^{i}_{V} \odot A^{i}_{c}, P^{i}_{V \rightarrow s} \odot P^{i}_{L}), \tag{12}$
$P^{i}_{LV} = Concat(P^{i}_{L} \odot A^{i}_{c}, P^{i}_{L \rightarrow s} \odot P^{i}_{V}), \tag{13}$

其中， $f_t(\cdot)$ 表示转置操作，符号 $\odot$ 表示Hadamard积操作， $Concat(\cdot, \cdot)$ 表示维度连接操作。 $P^{i}_{VL}$ 和 $P^{i}_{LV}$ 在空间维度上重塑为 $\mathbb{R}^{C \times H \times W}$ 的张量，经过 $\times 1$ 卷积操作后在通道维度上连接。同样， $\times 1$ 卷积操作将通道维度减少到 $C$ ，生成 $P^{i}_{R}$ 。最后， $P^{i}_{R}$ ，包含通道和空间特定的特征，替换 $P^{i}_{fuse}$ 两端的标记，生成新的模态标记 $P^{i+1}_{M}$ 。

3.5. 分析

MVTTG通过结合视觉和语言提示增强了追踪器的鲁棒性和适应性。语言信息提供了上下文和语义提示，澄清了模糊的视觉表示并改进了目标定位。这些综合能力使得追踪器能够应对外观和运动的变化，因此在各种现实场景中具有更高的有效性，适应不同的环境条件。

总之，所提出的MVTTG方法的有效性在于其能够利用语言和视觉提示的互补性。通过视觉和语言提示的融合，MVTTG增强了被追踪对象的表达能力，从而实现了更精确、鲁棒和上下文感知的多模态视觉追踪效果。语言知识的整合解决了一些传统纯视觉追踪方法的局限性，使得MVTTG成为在现实世界中具有应用前景的方法。

4. 实验

本节对所提出的MVTTG方法在各种下游多模态追踪任务中进行了全面评估。首先，我们在第一小节详细描述了实验设置，包括参数调整和模型选择的具体细节。接着，第二小节深入分析了MVTTG在不同数据集上与其他最先进方法的结果比较。然后，我们对所提出方法进行定性比较。最后，我们通过多方面的消融实验和视觉分析验证了所提出方法的有效性，从多个角度全面展示了其出色的性能。

4.1 实验设置

为了验证所提出的MVTTG的有效性，我们在多个数据集上进行了实验：在DepthTrack [40]数据集上进行RGB-D追踪，在LasHeR [41]和RGBT234 [11]数据集上进行RGB-T追踪，以及在VisEvent [42]数据集上进行RGB-E追踪。与许多其他广泛的多模态方法一样，为确保实验的公平性，我们在训练阶段仅使用上述数据集的精细划分的训练集。

在MDCGM中，我们采用预训练的YOLOv7 [43]作为检测器，利用强大的BLIP2大模型生成初始图像描述，并最终使用基于类别提示的ChatGLM2大语言模型进一步细化初步生成的图像描述。在实验中，我们使用VIT [39]作为视觉编码器，使用CLIP的文本部分作为语言编码器。我们提出的MVTTG模型在NVIDIA 4090 GPU上进行训练，批量大小为32。我们将语言输入的文本最大长度限制为77个词元。

我们的模型训练共进行60个周期，使用AdamW优化器 [44]，其中权重衰减设为 $10^{-4}$ 。初始学习率为 $\times 10^{-5}$ ，在48个周期后学习率减小为原来的十分之一，这遵循了VIPT [23]的官方设计。训练损失保持与OSTrack [45]一致，如下所示：

$L_{\text{total}} = \alpha L_{L1} + \beta L_{\text{iou}} + L_{\text{cls}}, \tag{14}$

其中， $\alpha = 5$ ， $\beta = 2$ 。所有其他可学习的参数均通过Xavier方法 [46]初始化。

在这里插入图片描述

表 1：在DepthTrack测试集上的总体表现。
前三名的最高得分分别用红色、绿色和蓝色标出。

4.2. 主实验结果分析

在本次实验中，我们将提出的MVTTG追踪器与数据集中来自三种不同模态的代表性追踪器进行了比较，包括MDNet [47]、CA3DMS [48]、LTDSEd [49]、DAL [50]、CLGS D [51]、LTMU B [51]、ATCAIS [51]、DDiMP [51]、DeT [40]、ATOM [52]、Ocean [53]、OSTrack [45]、SPT [54]、CMPP [55]、ProTrack [22]、ViPT [23]和APFNet [20]等。

DepthTrack 数据集:DepthTrack [40]是一个广泛用于RGB-D追踪的大型数据集，包含200个序列，40种不同的场景类型和90个目标类别。该数据集覆盖了许多长时间追踪序列，为研究人员提供了丰富的实验场景。该数据集的核心评估指标包括召回率、精确度和F1分数。正如表1所示，我们的MVTTG在该评估体系下表现出色，超越了过去所有其他SOTA追踪器，在F1分数上达到了63.3%的最新结果。值得注意的是，在DepthTrack数据集中，MVTTG相对于最新提出的方法VIPT [23]表现出了明显的优势，性能提高了3.9%。

RGBT234 数据集:RGBT234数据集包括234对RGB-T视频序列，每个序列都有相应的真实值。这些视频序列包括RGB图像及其对应的热红外图像，总帧数为234,000帧。RGBT234数据集的评估指标包括最大精确率（MPR）和最大成功率（MSR）。在本研究中，我们将提出的MVTTG与最新的RGB-T追踪器进行了比较。比较结果如表2所示，我们的MVTTG在MSR和MPR值上分别达到了62.7%和84.5%，分别比基础模型OSTrack高出7.8%和11.6%。
在这里插入图片描述

表 2：在RGBT234数据集上的总体表现。
前三名的最高得分分别用红色、绿色和蓝色标出。

LasHeR 数据集:LasHeR数据集 [41]是一个广泛用于RGBT目标追踪的高度多样化的数据集，包含979个训练视频序列和245个测试视频序列。在该数据集中，我们详细比较了MVTTG与其他最先进的方法，如表3和图6所示。令人鼓舞的是，MVTTG在所有指标下都取得了领先表现，成功率和精确度分别达到了55.1%和69.1%，比基础模型OSTrack [45]提高了13.2%和16.4%。这一成就展示了MVTTG在处理复杂多模态数据方面的出色能力。
在这里插入图片描述

表 3：在LasHeR数据集上的总体表现
前三名的最高得分分别用红色、绿色和蓝色标出。

VisEvent 数据集:VisEvent数据集 [42]旨在评估可见光与事件相机结合的目标追踪性能。该数据集覆盖了820个视频序列，分为500个训练序列和320个测试序列。如图7所示，我们的MVTTG在该数据集上表现良好，成功率和精确度分别达到了75.8%和61.7%，超过了VisEvent数据集中其他追踪器的最佳表现。这个结果突显了MVTTG在结合可见光和事件相机场景中的优异表现。

属性雷达图:LasHeR测试集包含19个独特属性：无遮挡（NO）、部分遮挡（PO）、完全遮挡（TO）、透明遮挡（HO）、运动模糊（MB）、低光照（LI）、高光照（HI）、光照突变（AIV）、低分辨率（LR）、变形（DEF）、背景杂乱（BC）、外观相似（SA）、相机移动（CM）、热交叉（TC）、帧丢失（FL）、视野外（OV）、快速运动（FM）、尺度变化（SV）和纵横比变化（ARC）。为了深入了解MVTTG在不同属性下的表现，我们比较了三种最先进的方法，如图8所示。在几乎所有属性下，MVTTG都表现出色，达到最佳水平。特别是在透明遮挡（HO）、低光照（LI）和光照突变（AIV）三个属性上，MVTTG显著优于其他方法。我们分析认为，这可能是由于这三个属性中生成的图像描述质量最佳，从而提供了更丰富的补充细节信息。这表明，基于文本生成的多模态视觉追踪方法能够有效利用不同模态的信息，使MVTTG能够更好地适应复杂的追踪场景。
在这里插入图片描述