AAAI 2024｜重磅发布！多模态跟踪新范式：条件生成对抗网络与扩散模型的融合引爆技术革命！

最新推荐文章于 2025-05-07 17:29:27 发布

Python_金钱豹

最新推荐文章于 2025-05-07 17:29:27 发布

阅读量1.3k

点赞数 12

CC 4.0 BY-SA版权

文章标签：生成对抗网络人工智能神经网络语言模型架构科技 3d

本文链接：https://blog.csdn.net/Python_cocola/article/details/142885270

论文链接：

https://arxiv.org/pdf/2309.01728

代码链接：

https://github.com/Zhangyong-Tang/GMMT-AAAI2024

简介

生成模型 (GM) 因其实现全面理解的卓越能力而受到越来越多的研究兴趣。然而，它们在多模式跟踪领域的潜在应用尚未得到探索。在这种背景下，我们寻求揭示利用生成技术来解决多模式跟踪中的关键挑战（信息融合）的潜力。本文深入研究了两种著名的 GM 技术，即条件生成对抗网络（CGAN）和扩散模型（DM）。与标准融合过程不同，标准融合过程中每个模态的特征直接输入融合块，我们在 GM 框架中将这些多模态特征与随机噪声结合起来，有效地将原始训练样本转化为更难的实例。这种设计擅长从特征中提取判别线索，增强最终的跟踪性能。实验结果表明，所提出的基于生成的融合机制通过在 GTOT、LasHeR 和 RGBD1K 上创下新记录，实现了最先进的性能。

研究动机及贡献

生成模型凭借全面理解的优势在许多下游任务都取得了可喜的性能，例如图像到图像翻译和多模态图像融合等。然而，将其在其他多模态任务上的成功扩展到多模态跟踪尚未得到充分讨论。

如图 1 所示。为了学习输入和输出之间的外部投影以及内部数据分布，GM 需要更长的训练时间和更大的训练数据。本文讨论了应用 GM 解决多模态信息融合的潜力，并提出了一种用于多模态跟踪的新颖的基于生成的融合机制（GMMT）。论文的贡献如下：

1）探索了以生成方法解决多模式跟踪的信息融合部分的潜力。为了实现这一目标，提出了一种新的基于生成的融合机制，该机制使融合的特征更具辨别力。

2）提出了一种通用的融合机制，并在多个基线方法、基准测试和两个多模态跟踪任务上证明了其泛化能力。

3）大量实验结果表明，所提出的方法在 RGB-T 和 RGB-D 跟踪任务上都是最先进的方法。

方法

多模态跟踪旨在通过多种模态之间的协作来获得预测，要求模型融合来自多模态输入的相关线索。预处理后，图像被发送到特征提取器和融合块。然而，这两个块有时会交叠，因此组合起来称为 F。然后将使用的融合特征 f 转发到任务头 H 以提取特定于任务的信息。之后，经过后处理可以维持最终的预测P。数学描述如下：

其中θ和分别表示F和H的可学习参数。输入是预处理后的多模态图像对。

基于生成的融合机制(GMMT)

鉴于融合过程通常应用于特征级别，GMMT 也在嵌入特征空间中进行了精心设计和讨论。按照 GMS 的典型设计，应事先获得所使用的原始融合特征 f（GMMT 的输入），这与多阶段训练方案一致。除了使用f之外，还应该保留每个模态（，，）的特征，从而为指导特定帧对的融合提供了强有力的条件。因此，本文采用了两个流行的 GM，即条件生成对抗网络（CGAN）和扩散模型（DM）。

基于 DM 的 GMMT 如图 2（a）所示。遵循DDIM（Song，Meng，and Ermon 2020），在训练阶段，使用原始融合特征f作为。在前向扩散过程中，通过随机高斯噪声进行扩散，其定义如下：

其中下标 t 是从区间 [1, T] 中选择的随机因子，它定义了执行多少步。是的阶乘，即的余数。是预定义的扩散速率，决定了第 t 步前进的距离。一旦计算出噪声表示，反向扩散过程就开始，旨在恢复干净的。它以作为输入，以作为条件，并将 t、的张量化嵌入作为标志。这些元素被连接并馈送到 U 形网络 U 中。然后通过最小化输出和噪声之间的 L2 损失来优化 U，基于此可以根据公式3 导出分布的均值和方差 .

因此，在测试阶段，迭代执行反向扩散过程，最终可以从学习到的分布中采样结果。但一开始用随机噪声代替，然后将时间标志t从T反向遍历到1。

一般来说，对于基于 DM 的 GMMT，典型的跟踪过程如式（1）所示。公式1 展开为式 4：

其中Sam是sampler的缩写，意思是从生成的分布中采样数据。受全概率公式的启发，用P作为分布的符号。基于CGAN的GMMT如图2(b)所示。

判别器 D 和生成器 G 被迭代训练。为了训练 D，合成的和原始的被one-hot标记，将 1 分配给，将 0 分配给。之后，分别计算和的损失，分别表示为和。为了区分真假数据，对D进行优化，最小化。训练完D后，其参数被冻结，开始G的学习过程。送入D，标签变为1，得到对应的损失并最小化。由于G是为了欺骗和误导D而设计的，因此相当于。值得注意的是，这部分的损失是通过均方误差计算的。为了确保公平比较，G 的架构反映了基于 DM 的 GMMT 中采用的 U 的架构。另外，由于推理时只使用了G，所以补充材料中保留了D的引入。

总之，基于 CGAN 的 GMMT 的输出由假特征组成，这意味着分布没有被明确学习。因此，整体跟踪过程与式1相同。

多模态跟踪器

所提出的 GMMT 在三个 RGB-T 跟踪器上实现，即自行设计的 Siamese 跟踪器、ViPT 和 TBSI，这意味着 m = 2。在讨论 GMMT 时，假设使用的融合特征 f 是预先定义的，这表明基线跟踪器应该事先进行预训练。这需要两个训练阶段：一个训练基线方法，另一个训练提出的 GMMT。

GMMT 在第二阶段被训练。为了向 GMMT 提供稳定的输入，在训练 GMMT 时，特征提取器和原始融合块被冻结。此外，为了协调融合方法和跟踪任务，附加了一个可学习的跟踪头，这意味着该阶段的损失结合了生成损失和从基线方法继承的跟踪损失：

其中 λ 是一个超参数，用于平衡生成损失的贡献。

在测试阶段，整体跟踪流程几乎是一样的。唯一的变化是原始融合块被丢弃，GMMT生成的融合特征作为后续任务头H的输入。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述