论文链接:
https://arxiv.org/pdf/2309.01728
代码链接:
https://github.com/Zhangyong-Tang/GMMT-AAAI2024
简介
生成模型 (GM) 因其实现全面理解的卓越能力而受到越来越多的研究兴趣。然而,它们在多模式跟踪领域的潜在应用尚未得到探索。在这种背景下,我们寻求揭示利用生成技术来解决多模式跟踪中的关键挑战(信息融合)的潜力。本文深入研究了两种著名的 GM 技术,即条件生成对抗网络(CGAN)和扩散模型(DM)。与标准融合过程不同,标准融合过程中每个模态的特征直接输入融合块,我们在 GM 框架中将这些多模态特征与随机噪声结合起来,有效地将原始训练样本转化为更难的实例。这种设计擅长从特征中提取判别线索,增强最终的跟踪性能。实验结果表明,所提出的基于生成的融合机制通过在 GTOT、LasHeR 和 RGBD1K 上创下新记录,实现了最先进的性能。
研究动机及贡献
生成模型凭借全面理解的优势在许多下游任务都取得了可喜的性能,例如图像到图像翻译和多模态图像融合等。然而,将其在其他多模态任务上的成功扩展到多模态跟踪尚未得到充分讨论。
如图 1 所示。为了学习输入和输出之间的外部投影以及内部数据分布,GM 需要更长的训练时间和更大的训练数据。本文讨论了应用 GM 解决多模态信息融合的潜力,并提出了一种用于多模态跟踪的新颖的基于生成的融合机制(GMMT)。论文的贡献如下:
1)探索了以生成方法解决多模式跟踪的信息融合部分的潜力。为了实现这一目标,提出了一种新的基于生成的融合机制,该机制使融合的特征更具辨别力。
2)提出了一种通用的融合机制,并在多个基线方法、基准测试和两个多模态跟踪任务上证明了其泛化能力。
3)大量实验结果表明,所提出的方法在 RGB-T 和 RGB-D 跟踪任务上都是最先进的方法。
方法
多模态跟踪旨在通过多种模态之间的协作来获得预测,要求模型融合来自多模态输入的相关线索。预处理后,图像被发送到特征提取器和融合块。然而,这两个块有时会交叠,因此组合起来称为 F。然后将使用的融合特征 f 转发到任务头 H 以提取特定于任务的信息。之后,经过后处理可以维持最终的预测P。数学描述如下:
其中θ和分别表示F和H的可学习参数。输入是预处理后的多模态图像对。
基于生成的融合机制(GMMT)
鉴于融合过程通常应用于特征级别,GMMT 也在嵌入特征空间中进行了精心设计和讨论。按照 GMS 的典型设计,应事先获得所使用的原始融合特征 f(GMMT 的输入),这与多阶段训练方案一致。除了使用f之外,还应该保留每个模态(,,)的特征,从而为指导特定帧对的融合提供了强有力的条件。因此,本文采用了两个流行的 GM,即条件生成对抗网络(CGAN)和扩散模型(DM)。
基于 DM 的 GMMT 如图 2(a)所示。遵循DDIM(Song,Meng,and Ermon 2020),在训练阶段,使用原始融合特征f作为。在前向扩散过程中, 通过随机高斯噪声 进行扩散,其定义如下:
其中下标 t 是从区间 [1, T] 中选择的随机因子,它定义了执行多少步。 是 的阶乘,即 的余数。 是预定义的扩散速率,决定了第 t 步前进的距离。一旦计算出噪声表示 ,反向扩散过程就开始,旨在恢复干净的 。它以 作为输入,以 作为条件,并将 t、 的张量化嵌入作为标志。这些元素被连接并馈送到 U 形网络 U 中。然后通过最小化输出和噪声 之间的 L2 损失来优化 U,基于此可以根据公式3 导出 分布的均值 和方差 .
因此,在测试阶段,迭代执行反向扩散过程,最终可以从学习到的分布中采样结果。但一开始用随机噪声代替,然后将时间标志t从T反向遍历到1。
一般来说,对于基于 DM 的 GMMT,典型的跟踪过程如式(1)所示。 公式1 展开为式 4:
其中Sam是sampler的缩写,意思是从生成的分布中采样数据。受全概率公式的启发,用P作为分布的符号。基于CGAN的GMMT如图2(b)所示。
判别器 D 和生成器 G 被迭代训练。为了训练 D,合成的 和原始的 被one-hot标记,将 1 分配给 ,将 0 分配给 。之后,分别计算 和 的损失,分别表示为 和 。为了区分真假数据,对D进行优化,最小化 。训练完D后,其参数被冻结,开始G的学习过程。 送入D,标签变为1,得到对应的损失并最小化。由于G是为了欺骗和误导D而设计的,因此相当于。值得注意的是,这部分的损失是通过均方误差计算的。为了确保公平比较,G 的架构反映了基于 DM 的 GMMT 中采用的 U 的架构。另外,由于推理时只使用了G,所以补充材料中保留了D的引入。
总之,基于 CGAN 的 GMMT 的输出由假特征组成,这意味着分布没有被明确学习。因此,整体跟踪过程与式1相同。
多模态跟踪器
所提出的 GMMT 在三个 RGB-T 跟踪器上实现,即自行设计的 Siamese 跟踪器、ViPT 和 TBSI,这意味着 m = 2。在讨论 GMMT 时,假设使用的融合特征 f 是预先定义的,这表明基线跟踪器应该事先进行预训练。这需要两个训练阶段:一个训练基线方法,另一个训练提出的 GMMT。
GMMT 在第二阶段被训练。为了向 GMMT 提供稳定的输入,在训练 GMMT 时,特征提取器和原始融合块被冻结。此外,为了协调融合方法和跟踪任务,附加了一个可学习的跟踪头,这意味着该阶段的损失结合了生成损失和从基线方法继承的跟踪损失:
其中 λ 是一个超参数,用于平衡生成损失的贡献。
在测试阶段,整体跟踪流程几乎是一样的。唯一的变化是原始融合块被丢弃,GMMT生成的融合特征作为后续任务头H的输入。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。