300+篇文献！一文详解基于Transformer的多模态学习最新进展

最新推荐文章于 2025-03-21 19:25:34 发布

PaperWeekly

最新推荐文章于 2025-03-21 19:25:34 发布

阅读量5.3k

点赞数 7

文章标签：大数据 python 计算机视觉机器学习人工智能

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/125567689

版权

本文详细探讨了Transformer在多模态学习中的最新进展，包括其在计算机视觉、机器学习和人工智能领域的应用。作者从几何拓扑角度解析Transformer的内在特性，指出其对不同模态的兼容性。文章回顾了从Vanilla Transformer到Vision Transformer再到多模态Transformer的发展，讨论了预训练、特定任务应用、挑战及未来方向。Transformer模型的跨模态交互、融合和对齐策略是当前研究的焦点，同时面临数据需求、效率和鲁棒性等问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

©PaperWeekly 原创 · 作者 | Jason

研究方向 | 计算机视觉

论文标题：

Multimodal Learning with Transformers: A Survey

论文地址：

https://arxiv.org/abs/2206.06488

摘要

Transformer 是一种很有前途的神经网络学习器，在各种机器学习任务中取得了巨大的成功。由于最近多模态应用和大数据的流行，基于 Transformer 的多模态学习已成为人工智能研究的热门话题。

本文对面向多模态数据的 Transformer 技术进行了全面调查。本文的主要内容包括：1）多模态学习、Transformer 生态系统和多模态大数据时代的背景；2）从一个几何拓扑视角进行 Vanilla Transformer、Vision Transformer 和 multimodal Transformer 的理论回顾；3）通过两个重要范式，即多模态预训练和特定多模态任务，对多模态 Transformer 应用的回顾；4）对多模态 Transformer 模型和应用所共有的共同挑战和设计的总结，以及 5）对社区的开放问题和潜在研究方向的讨论。

引言

人工智能（AI）的最初灵感是模仿人类的感知，例如看、听、触、嗅。一般来说，模态通常与创建独特通信渠道的特定传感器相关联，例如视觉和语言。我们感官知觉的一个基本机制是能够共同利用多种感知数据模态，以便在动态不受约束的情况下正确地与世界互动，每种模态都作为具有不同统计特性的独特信息源。

例如，一张图像通过数千个像素呈现“大象在水中嬉戏”场景的视觉外观，而相应的文本用一个使用离散单词的句子描述这一时刻。从根本上说，多模态人工智能系统需要对多模态信息源进行摄取、解释和推理，以实现类似人类水平的感知能力。多模态学习（MML）是一种构建 AI 模型的通用方法，该模型可以从多模态数据中提取和关联信息。

本文侧重于使用 Transformers（如上图所示）进行多模态学习，灵感来自于它们在建模不同模态（例如语言、视觉、听觉）和任务（例如语言翻译、图像识别、语音识别）具有较少的特定于模态的架构假设（例如，平移不变性和视觉中的局部网格注意偏置）。具体来说，Transformer 的输入可以包含一个或多个 token 序列，每个序列的属性（例如，模态标签、顺序）可以自然地进行 MML 而无需架构修改。

此外，通过控制 self-attention 的输入模态可以简单地实现学习每个模态的特异性和模态间的相关性。至关重要的是，最近跨不同学科探索 Transformer 架构的研究尝试激增，导致近年来开发了大量新的 MML 方法，以及各个领域的显着和多样化进展。这需要及时回顾和总结代表性方法，以使研究人员能够了解跨相关学科的 MML 领域的图景，更重要的是捕捉当前成就和主要挑战的整体结构化图景。

为了在不同学科之间获得更好的可读性和可访问性，作者分别采用基于应用程序和挑战维度的两层结构化分类法。这有几个好处：（1）具有特定应用专业知识的研究人员可以在连接到其他相关领域之前找到适合自己研究领域的应用。（2）不同领域开发的相似模型设计和架构可以抽象的、公式驱动的视角进行总结，从而可以在共同基础上关联和对比不同应用中形成的各种模型的数学思想，跨越特定领域的限制。

本文是对基于 Transformer 的多模态机器学习状态的第一次全面回顾。本文的主要特点包括：

1. 作者强调 Transformer 的优势在于它们可以以与模态无关的方式工作。因此，它们与各种模态（和模态的组合）兼容。为了支持这一观点，作者第一次从几何拓扑的角度提供了对多模态上下文中 Transformer 的内在特征的理解。作者提出将 self-attention 视为一种图样式建模，它将输入序列（单模态和多模态）建模为全连接图。具体来说，self-attention 将来自任意模态的任意 token 嵌入建模为图节点。

2. 作者尽可能在数学上讨论多模态上下文中 Transformer 的关键组件。

3. 基于 Transformers，跨模态交互（例如融合、对齐）本质上是由 self-attention 及其变体处理的。在本文中，作者从自注意力设计的角度提取了基于 Transformer 的 MML 实践的数学本质和公式。

在回顾了多模态学习、Transformer 生态系统和多模态大数据时代的前景后，本文的主要贡献总结如下：

1. 作者从几何拓扑的角度对 Vanilla Transformer、Vision Transformer 和多模态 Transformer 进行了理论回顾。

2. 作者从两个互补的角度为基于 Transformer 的 MML 提供分类，即基于应用程序和基于挑战。

3. 作者讨论了基于 Transformer 的 MML 当前的瓶颈、存在的问题和潜在的研究方向。

背景

2.1 Multimodal Learning（MML）

MML是近几十年来的一个重要研究领域；早期的多模态应用——视听语音识别在 1980 年代被研究。MML 是人类社会的关键。我们人类生活的世界是一个多模态环境，因此我们的观察和行为都是多模态的。例如，人工智能导航机器人需要多模态传感器来感知现实世界环境，例如相机、激光雷达、雷达、超声波、GNSS、高清地图、里程表。此外，人类行为、情绪、事件、动作和幽默是多模态的，因此各种以人为中心的 MML 任务被广泛研究，包括多模态情感识别、多模态事件表示、理解多模态幽默、面部-基于身体语音的视频人物聚类等。

近年来，随着互联网的发展和各种智能设备的普及，越来越多的多模态数据通过互联网传输，越来越多的多模态应用场景不断涌现。在现代生活中，我们可以看到各种多模态应用，包括商业服务（例如电子商务/商品检索、视觉和语言导航（VLN））、交流（例如唇读、手语翻译）、人机交互、医疗保健 AI、监控 AI 等。

而且，在深度学习时代，深度神经网络极大地推动了 MML 的发展。特别是 Transformers是一个竞争激烈的架构家族，给 MML 带来了新的挑战和机遇。

2.2 Transformers: a Brief History and Milestones

得益于其自注意力机制，Vanilla Transformer受益于自注意力机制，是最初为 NLP 提出的序列特定表示学习的突破性模型，在各种 NLP 上实现了 state-of-the-art 任务。随着 Vanilla Transformer 的巨大成功，许多衍生模型被提出，例如，BERT、BART、GPT、GPT-2、GPT-3、Longformer、Transformer-XL、XLNet。

Transformers 目前在 NLP 领域占据主导地位，这促使研究人员尝试将 Transformers 应用于其他模态，例如视觉领域。在视觉领域的早期尝试中，早期探索的一般流程是“CNN 特征 + 标准 Transformer 编码器”，研究人员通过调整原始图像大小到低分辨率并 reshape 为一维序列来实现 BERT 风格的预训练。

Vision Transformer（ViT）是一项开创性的工作，它通过将 Transformer 的编码器应用于图像来提供端到端的解决方案（参见上图）。ViT 及其变体都已广泛应用于各种计算机视觉任务，包括 low-level 任务、识别、检测、分割等，并且还可以工作对于监督和自监督视觉学习都很好。此外，一些最近发布的作品为 ViT 提供了进一步的理论理解，例如，它的内部表示鲁棒性、其潜在表示传播的连续行为。

在 Transformer 和 ViT 的巨大成功的推动下，VideoBERT 是一项突破性的工作，是第一个将 Transformer 扩展到多模态任务的工作。VideoBERT 展示了 Transformer 在多模态环境中的巨大潜力。在 VideoBERT 之后，许多基于 Transformer 的多模态预训练模型（例如，ViLBERT、LXMERT、LXMERT、VisualBERT、VL-BERT、UNITER、CBT, Unicoder-VL, B2T2, VLP], 12-in-1, Oscar, Pixel-BERT, ActBERT, ImageBERT, HERO，UniVL）已成为机器学习领域越来越感兴趣的研究课题。

2021 年，提出了 CLIP（如上图所示）。这是一个新的里程碑，它使用多模态预训练将分类转换为检索任务，使预训练模型能够处理零样本识别。因此，CLIP 是一个成功的实践，它充分利用了大规模多模态预训练来实现零样本学习。最近，进一步研究了 CLIP 的思想，例如，基于 CLIP 预训练模型的零样本语义分割、ALIGN、CLIP-TD。

2.3 Multimodal Big Data

在过去的十年中，随着社交媒体和在线零售等互联网应用的快速发展，大量的多模态数据集被提出，例如 Conceptual Captions、COCO、VQA、Visual Genome, SBU Captions, Cooking312K, LAIT, eSNLI-VE, ARCH,