摘要:
多模态机器学习是一个充满活力的跨学科研究领域,旨在设计具有智能能力的计算机代理,例如通过整合多种交流模态(包括语言、声学、视觉、触觉和生理信息)来实现理解、推理和学习。随着视频理解、具身自主代理、文本生成图像和多传感器融合在医疗健康和机器人等应用领域的兴趣不断增加,多模态机器学习为机器学习社区带来了独特的计算和理论挑战,特别是在数据源的异质性和模态之间的复杂关系方面。然而,由于多模态研究的广泛进展,使得识别该领域的共同主题和未解问题变得更加困难。通过汇总广泛的应用领域和理论框架,结合历史与近期的视角,本文旨在提供多模态机器学习的计算和理论基础概述。我们首先定义了推动后续创新的三个关键原则:模态异质性、模态连接和模态交互,并提出了一个包括六大核心技术挑战的分类法:表示、对齐、推理、生成、迁移和量化,涵盖了历史与近期的趋势。通过该分类法的视角,本文展示了近期技术成就,帮助研究人员理解新方法之间的相似性与差异性。最后,我们通过分类法指出了若干未来研究的未解问题。
CCS概念:•计算方法→机器学习;人工智能;计算机视觉;自然语言处理。
附加关键词和短语:多模态机器学习、表示学习、数据异构、特征交互、语言和视觉、多媒体
介绍:
开发能够通过多模态经验和数据进行理解、推理和学习的计算机代理,一直是人工智能的宏伟目标,类似于人类通过多种感知模态来感知和与世界互动。随着具身自主代理[37, 222]、自动驾驶汽车[295]、图像和视频理解[11, 243]、图像和视频生成[210, 234]以及多传感器融合等领域的最新进展,我们离能够集成和从多种感知模态中学习的智能代理越来越近。这一充满活力的多学科研究领域——多模态机器学习,由于数据的异质性以及模态之间常常存在的内在联系,带来了独特的挑战,并且在多媒体[184]、情感计算[204]、机器人技术[127, 136]、人机交互[190, 228]和医疗健康[40, 180]等应用领域具有广泛的应用。
然而,多模态研究的进展速度使得很难识别历史和近期工作中的共同主题,以及该领域的关键未解问题。通过综合广泛的多模态研究,本文旨在提供多模态机器学习的方法论、计算和理论基础概述,这与近期针对视觉和语言[269]、语言与强化学习[161]、多媒体分析[19]和人机交互[114]等应用导向的综述相辅相成。
为了更好地理解多模态机器学习的基础,我们首先定义了(在§2中)三大关键原则,这些原则推动了随后的技术挑战和创新:(1)模态异质性,即信息往往表现出不同的特性、结构和表示方式;(2)模态连接性,即模态通常是相互关联的,具有共同性;(3)模态交互性,即在任务推理中,不同模态的结合能够产生新的信息。在此基础上,我们提出了多模态学习的六大核心挑战的分类法:表示、对齐、推理、生成、迁移和量化(见图1)。这些构成了多模态技术的核心挑战,在传统的单一模态机器学习中研究较少,必须加以解决,才能推动该领域的发展:
表示 (§3):我们能否学习到能够反映模态元素之间异质性和相互联系的表示?我们将讨论以下方法:(1)表示融合:整合来自两种或更多模态的信息,以捕捉跨模态交互;(2)表示协调:交换跨模态信息,目的是保持相同数量的表示,同时改进多模态的上下文化;(3)表示分裂:创建一组更大的、不相交的表示,反映关于内部结构(如数据聚类或分解)的知识。
对齐 (§4):我们如何识别模态元素之间的连接和交互?对齐具有挑战性,因为它可能依赖于长程依赖,涉及模糊的分割(例如,单词或话语),且可能是一对一、多对多,或者根本不存在。我们将讨论:(1)离散对齐:识别跨模态离散元素之间的连接;(2)连续对齐:建模跨模态信号之间的对齐,处理模糊分割问题;(3)上下文化表示:通过捕捉模态元素之间的跨模态交互来学习更好的表示。
推理 (§5) 定义为通过多步推理组成知识,利用问题结构完成特定任务。推理包括:(1)建模组成发生的结构;(2)推理过程中的中间概念;(3)理解更抽象概念的推理范式;(4)在结构、概念和推理研究中利用大规模外部知识。
生成 (§6) 涉及学习生成过程以产生原始模态。我们将其子挑战分为:(1)总结:总结多模态数据,减少信息内容的同时突出输入中最显著的部分;(2)翻译:从一种模态翻译到另一种模态,同时保持信息内容并与跨模态连接保持一致;(3)创建:同时生成多种模态,以增加信息内容,同时保持模态内外的一致性。
迁移 (§7) 旨在在模态之间转移知识,通常是为了帮助目标模态,目标模态可能是噪声较多或资源有限。迁移的示例包括:(1)跨模态迁移:将模型适应于涉及主模态的任务;(2)共学习:通过共享表示空间,在二级模态到主模态之间转移信息;(3)模型诱导:保持各自独立的单模态模型,但在这些模型之间转移信息。
量化 (§8):第六个也是最后一个挑战涉及通过实证和理论研究,更好地理解:(1)多模态数据集中异质性的维度及其如何影响建模和学习;(2)多模态数据集中模态连接和交互的存在及其在训练模型中的捕获;(3)处理异质数据时所面临的学习和优化挑战。
六大核心挑战及其子挑战,与下面的表格相对应
图·1 多模态学习的核心研究挑战:(1)表征研究如何表示和总结多模态数据,以反映单个模态元素之间的异质性和相互联系。(2) 对齐旨在识别所有元素之间的联系和相互作用。(3) 推理旨在从多模态证据中组合知识,通常通过任务的多个推理步骤。(4) 生成涉及学习生成过程,以生成反映跨模态交互、结构和连贯性的原始模态。(5) 转移旨在在模态及其表示之间转移知识。(6) 量化涉及实证和理论研究,以更好地理解多模态学习过程。
最后,我们从多模态学习的长远视角总结了本文,并通过本分类法提出了未解的研究问题。这项调查还通过作者在CVPR 2022和NAACL 2022上的教程以及CMU的课程(11-777 Multimodal Machine Learning 和 11-877 Advanced Topics in Multimodal Machine Learning)以视觉形式进行了展示。我们鼓励读者查看这些公开发布的视频录制、附加的阅读材料,以及激发多模态学习中未解研究问题的讨论探讨。
- CMU课程11-777: Multimodal Machine Learning
- CMU课程11-877: Advanced Topics in Multimodal Machine Learning
多模态研究的基础原则
模态是指自然现象被感知或表达的方式。例如,模态包括通过麦克风录制的语音和音频、通过相机捕捉的图像和视频,以及通过触觉传感器捕捉的力和振动。模态可以被放置在从原始到抽象的谱系上:原始模态是那些更接近传感器检测的模态,如麦克风录制的语音或相机捕捉的图像。抽象模态则是那些离传感器较远的模态,如从语音录音中提取的语言、从图像中检测到的物体,甚至像情感强度和物体类别这样的抽象概念。(模态是什么)
多模态是指涉及多种模态的情境。从研究角度来看,多模态涉及对异质且相互关联(连接 + 交互)模态的计算研究。首先,模态是异质的,因为不同模态中存在的信息往往表现出多样的特性、结构和表示。其次,这些模态并非独立存在,而是由于互补信息共享连接。第三,当模态在任务中被整合时,它们以不同的方式相互作用。我们将在以下小节中扩展这三项多模态研究的基础原则。(多模态是什么,介绍多模态研究的基本原则:模态的异质,互补,相互作用为任务做贡献)
2.1 原则 1:模态是异质的
异质性原则反映了这样一个观察:不同模态中呈现的信息通常会表现出不同的特性、结构和表示。异质性应该被视为一个谱系:例如,从同一相机拍摄的两张图像,如果仅考虑相机的磨损,捕捉的是相同的视图,这两张图像更接近于同质的;两种不同的语言如果表达的是相同的意思,但根据语言家族的不同而有所不同,则它们是稍微异质的;语言和视觉之间的差异则更加异质,依此类推。在本节中,我们将呈现一份非详尽的异质性维度清单(参见图2以获得说明)。这些维度是互补的,可能会有重叠;每个多模态问题可能涉及多个维度的异质性。
图2. 不同模态中呈现的信息往往会表现出不同的特性、结构和表示。异质性的维度可以通过个体元素及其分布、元素的结构,以及模态信息、噪声和任务相关性之间的差异来衡量。(模态异质性体现在多个维度的异质性,这些维度是互补的,可能有重叠)
元素表示:每种模态通常由一组元素组成——这是数据的最基本单元,不能(或者说,用户选择不)被进一步细分为更小的单元。例如,键入的文本通过一组字符记录,视频通过一组帧记录,图形通过一组节点和边缘记录。那么,每种模态中存在哪些基本元素,如何表示这些元素呢?从形式上看,这一维度衡量的是模态元素在样本空间或表示空间中的异质性。
分布:分布指的是模态中元素的频率和可能性。元素通常遵循独特的分布,语言语料库中的单词遵循齐普夫定律(Zipf’s Law)就是一个经典例子。分布异质性则指的是元素的频率和可能性之间的差异,例如录制信号中的不同频率和元素的密度。
结构:自然数据在个体元素如何组合成完整模态时展现出结构。例如,图像在各个物体元素之间展现空间结构,语言则是由单个单词层次化地组成,信号则展现出随时间变化的时间结构。结构异质性指的是这种潜在结构的差异。
信息:信息指的是每种模态中呈现的总信息量。随后,信息异质性衡量的是模态之间信息内容的差异,这可以通过信息理论度量来正式衡量。
噪声:噪声可能在多个层次上被引入到自然数据中,也可能在数据记录过程中产生。自然数据中的噪声包括遮挡、人工生成数据中的不完美(例如,键盘输入不完美或语音不清晰),或由于传感器故障而导致的数据模糊性。噪声异质性衡量的是模态之间噪声分布的差异,以及信噪比的差异。
相关性:最后,每种模态在特定任务和上下文中的相关性不同——某些模态可能对某些任务比其他模态更有用。任务相关性描述了模态如何用于推理,而上下文相关性描述了模态如何与其他模态相互作用。
在研究单模态和多模态数据时,考虑这些异质性维度是非常有用的。在单模态的情况下,通常会设计专门的编码器来捕捉每种模态中的这些独特特性。在多模态的情况下,建模异质性在学习表示和捕捉对齐时非常有用,它是量化多模态模型中的一个关键子挑战。(意义:对异质性进行建模)
原则 2:模态是相互连接的
尽管模态是异质的,但由于共享的互补信息,它们通常是相互连接的。共享信息的存在通常与仅存在于单一模态中的独特信息相对立。模态连接描述了信息如何在模态之间共享的程度和维度。在推理多模态数据中的连接时,思考自下而上(统计学的)和自上而下(语义的)的方法是很有帮助的(见图3)。从统计数据驱动的角度来看,连接是通过在多模态数据中的分布模式来识别的,而语义方法则根据我们对模态如何共享和包含独特信息的领域知识来定义连接。
统计关联:当一个变量的值与另一个变量的值相关时,就存在统计关联。例如,两个元素可能会一起出现,从而导致它们同时出现的频率较高。从统计学角度来看,这可能会导致相关性——即元素之间的线性关系程度,或者其他非线性关联。从数据驱动的角度来看,发现哪些元素彼此相关,对于在多模态表示和对齐过程中建模模态之间的联合分布非常重要。
统计依赖性:统计依赖性比关联更为深入,它需要理解两个元素之间的具体统计依赖类型。例如,是否存在从一个元素到另一个元素的因果依赖,或者是否存在一个潜在的混杂因素导致两个元素同时出现?其他形式的依赖性可能是空间或时间上的:一个元素出现在另一个元素之上,或者在另一个元素之后。通常,虽然统计关联可以仅从数据中估计出来,但理解统计依赖的性质需要一些关于元素及其潜在关系的知识。
语义对应:语义对应可以看作是确定一个模态中的哪些元素与另一个模态中的元素共享相同语义意义的问题。识别对应关系是许多与语言对接、翻译、检索和跨模态对齐等相关问题的基础。
语义关系:最后,语义关系是对语义对应的推广:不再要求模态元素共享完全相同的意义,而是包括描述两个模态元素之间关系的属性,例如语义关系、逻辑关系、因果关系或功能关系。识别这些语义相关的连接对于更高阶的推理非常重要。
各种模式虽然不同,但如何通过共享和独特的信息相互联系。通过从统计(数据驱动)和语义(知识驱动)的角度考虑联系,我们可以更好地对多模态数据进行建模和推理。
图3. 模态连接描述了模态之间如何相互关联并共享共同点,例如语言和图像中相同概念之间的对应关系,或跨空间和时间维度的依赖关系。连接可以通过统计和语义两种视角进行研究。
模态连接的深度凝练(来自grok)
- 统计依赖性与语义关系的区别
- 统计依赖性(数据驱动,模式导向):
- 聚焦模态元素之间的统计模式,如因果、时间或空间依赖。
- 基于数据分布和频率(如声音预测图像的出现),无需深入理解意义。
- 示例:视频中汽车引擎声(音频)常在汽车出现(视觉)前,依赖时间序列分析得出。
- 语义关系(知识驱动,意义导向):
- 聚焦模态元素间的概念或逻辑联系,如功能、因果或逻辑关系。
- 依赖领域知识和语义理解(如雨天导致使用伞)。
- 示例:雨天图像(视觉)与“携带伞”文字(文本)因雨致伞的逻辑关联而连接。
- 区别:统计依赖性关注数据模式,语义关系关注意义与上下文。
- 因果依赖性与因果关系的区别
- 因果依赖性(统计模式,底部向上):
- 通过数据模式识别因果关系,如时间序列或预测(如引擎声预示汽车出现)。
- 依赖数据分析,不一定需要意义解释。
- 示例:视频中引擎声(音频)在汽车出现(视觉)前,基于时间数据推断因果。
- 因果关系(语义意义,顶部向下):
- 通过概念和知识理解因果联系,如雨导致用伞的逻辑。
- 依赖语义理解和领域知识,而非仅数据模式。
- 示例:雨天图像(视觉)与“携带伞”文字(文本)因雨致伞的意义关联。
- 区别:因果依赖性基于数据模式,因果关系基于意义解释,二者可互补但视角不同。
原则 3:模态相互作用
模态相互作用研究模态元素在任务推理中集成时如何相互作用,从而产生新的信息。我们注意到模态连接和相互作用之间的一个重要区别:连接存在于多模态数据本身,而相互作用仅在模态被集成并共同处理时才会产生,进而带来新的反应。在图4中,我们提供了一些可能存在的相互作用维度的高层次示意。(前提:模态被集成并共同处理时。应用于任务推理中)
-
相互作用信息:调查涉及相互作用的连接信息类型。当一个相互作用涉及到模态之间共享的共同信息时,这种相互作用是冗余的;而非冗余的相互作用则不完全依赖于共享信息,而是依赖于不同的共享、独特或甚至可能是协同的信息比率。(冗余和非冗余相互作用的区别)
-
相互作用机制:是指在为任务推理整合模态元素时所涉及的功能操作符。例如,相互作用可以表现为统计加法性、非加法性和非线性形式,也可以从语义角度来看,其中两个元素通过逻辑、因果或时间操作进行交互。(元素通过相互作用机制–功能操作符,进行任务推理)
-
相互作用响应:研究在存在多个模态时,推理响应如何变化。例如,通过细分冗余相互作用,我们可以说,当多模态响应与单一模态的响应相同的时候,两种模态创建了等效响应;而当多模态响应显示出更高的信心时,则为增强响应。另一方面,非冗余相互作用,如调制或出现,是指当多模态响应与单一模态响应不同的时候发生的情况。
图4. 模态相互作用的几个维度:
(1) 相互作用信息研究在相互作用中是否涉及共享的冗余信息或独特的非冗余信息;
(2) 相互作用机制研究相互作用发生的方式;
(3) 相互作用响应研究在多模态存在的情况下,推理任务如何变化。
原则 3:模态相互作用的讲解
概述 模态相互作用研究不同模态(如文本、图像、音频等)在任务推理中整合时如何相互影响,并产生新的信息或响应。与“模态连接”(存在于多模态数据本身的共享或独特信息)不同,模态相互作用在模态被整合并共同处理时出现。图
4 提供了相互作用的三个维度:相互作用信息、相互作用机制和相互作用响应,帮助理解模态动态交互。
- 相互作用信息
- 冗余(Redundancy):模态共享共同信息,相互作用重复增强理解。图 4 中“Redundancy”部分显示重叠圆圈(红色和蓝色),表示共享信息(如图像和文字均描述“笔记本电脑”)。
- 示例:图像和文字共同确认“笔记本电脑”,提高任务置信度。
- 非冗余(Non-redundancy):不完全依赖共享信息,利用独特或协同信息。图 4 中“Non-redundancy”部分显示部分重叠但有独特区域。
- 示例:图像显示笔记本外观,文字描述其功能,结合提供更丰富信息。
- 协同的信息比率:非冗余相互作用的关键,指模态通过独特或互补信息协作的比例。例如,图像的颜色(视觉独特)与文字的性能描述(文本独特)结合,为任务(如推荐)提供新价值。
- 相互作用机制 描述模态整合时的功能操作,图 4 列出以下类型:
- 非交互(Noninteracting):模态独立,无直接交互。箭头(红△+蓝○)指向方框(□),表示单独贡献。
- 示例:图像和文字分别独立分类。
- 加性(Additive):模态信息简单相加,增强效果。红△+蓝○→□,表示叠加提升。
- 示例:图像和文字共同提高分类精度。
- 不对称(Asymmetric):一模态主导,另一从属。箭头指向单方框(□),表示主导效应。
- 示例:图像主导识别,文字辅助。
- 情境化(Contextualized):模态在情境中交互,涉及逻辑或因果。复杂箭头(如“或/与”)。
- 示例:图像的笔记本与文字“远程工作”结合,增强理解。
- 非加性(Non-additive):产生非线性或新兴效果。复杂运算(△)表示新信息。
- 示例:图像和音频结合揭示狗的活跃状态,单一模态无法得出。
- 相互作用响应 研究多模态整合后任务推理的变化,图 4 包括:
- 等价(Equivalence):多模态与单一模态响应相同。图 4 中“Equivalence”表示冗余无新增。
- 示例:图像和文字均描述“笔记本电脑”,结果一致。
- 增强(Enhancement):多模态响应更强(如置信度更高)。图 4 中“Enhancement”表示加性效果。
- 示例:图像和文字共同提升分类准确性。
- 独立性(Independence):模态独立贡献,无显著交互。“And ○”表示分离。
- 示例:图像和音频分别处理,无交叉。
- 主导(Dominance):一模态主导结果。“Dominance”表示不对称。
- 示例:图像主导识别,文字从属。
- 调制(Modulation):多模态调整单一模态响应。“(or)”表示逻辑调整。
- 示例:文字“远程工作”调制图像中的笔记本,突出功能。
- 出现(Emergence):多模态产生新响应,单一模态无法达到。“Emergence”表示非加性新信息(△)。
- 示例:图像和音频揭示狗的活跃状态,单一模态无法得出。
解释关键句子:“另一方面,非冗余相互作用,如调制或出现,是指当多模态响应与单一模态响应不同的时候发生的情况”
- 背景:聚焦非冗余相互作用(利用独特或协同信息),区别于冗余相互作用(依赖共享信息)。
- 非冗余相互作用:通过模态的独特或协同信息比率(如图像外观与文字功能)产生新效果。
- 调制(Modulation):多模态整合调整单一模态响应。例如,文字“远程工作”调制图像中的笔记本,突出用途,使结果不同于单一模态。
- 出现(Emergence):多模态产生单一模态无法达到的新响应。例如,图像和音频结合揭示狗的活跃状态。
- “当多模态响应与单一模态响应不同的时候”:多模态整合后,任务结果(如分类或解释)因独特/协同信息变化,可能调制(调整)或出现(生成新响应),体现非冗余价值。
总结 模态相互作用揭示模态整合的动态过程,图 4 的维度(信息、机制、响应)说明:
- 信息:冗余依赖共享,非冗余利用独特或协同信息(如协同信息比率)。
- 机制:从非交互到非加性,描述整合方式。
- 响应:从等价到出现,展示多模态效果。
非冗余相互作用(如调制、出现)是多模态学习的创新点,使响应超越单一模态,适用于复杂任务。
核心技术挑战
基于这三大核心原则以及我们对近期工作的详细回顾,我们提出了一种新的分类法,用于表征多模态研究中的核心技术挑战:表示、对齐、推理、生成、迁移和量化。在表1中,我们总结了这六个核心挑战的完整分类法,包括它们的子挑战、相应方法的类别以及每个类别中的最新示例。在接下来的章节中,我们将详细描述我们的新分类法,并重新审视异质性、连接和交互的原则,看看它们如何提出研究问题并激发每个挑战领域的研究。 以这些原则为出发点,研究问题,开展应对这些挑战的研究。
表1. 该表总结了多模态机器学习中的6个核心挑战、它们的子挑战、相应方法的类别以及代表性示例。我们认为,这种分类法可以帮助系统地记录该领域的快速进展,并更好地识别开放的研究问题。
挑战 | 子挑战 | 方法 & 关键示例 |
---|---|---|
表示 (§3) | 融合 (§3.1) | 抽象融合 [117, 310] & 原始融合 [24, 209] |
协调 (§3.2) | 强协调 [75, 206] & 部分协调 [276, 319] | |
分裂 (§3.3) | 模态级别分裂 [94, 262] & 细粒度分裂 [1, 48] | |
对齐 (§4) | 离散连接 (§4.1) | 局部对齐 [60, 100] & 全局对齐 [142] |
连续对齐 (§4.2) | 变形 [90, 103] & 分割 [243] | |
上下文化 (§4.3) | 联合 [140]、跨模态 [93, 159] & 图形 [301] | |
推理 (§5) | 结构建模 (§5.1) | 层次化 [15]、时间性 [297]、交互式 [161] & 发现 [200] |
中介概念 (§5.2) | 注意力 [299]、离散符号 [13, 274] & 语言 [109, 317] | |
推理范式 (§5.3) | 逻辑推理 [82, 246] & 因果推理 [4, 189, 304] | |
外部知识 (§5.4) | 知识图谱 [86, 324] & 常识 [196, 315] | |
生成 (§6) | 总结 (§6.1) | 抽取式 [52, 270] & 摘要式 [139, 193] |
翻译 (§6.2) | 示例基础 [122, 135] & 生成式 [6, 115, 210] | |
创作 (§6.3) | 条件解码 [63, 191, 321] | |
迁移 (§7) | 跨模态迁移 (§7.1) | 微调 [208, 266]、多任务 [150, 235] & 迁移 [160] |
共同学习 (§7.2) | 表示 [118, 312] & 生成 [202, 249] | |
模型归纳 (§7.3) | 协同训练 [33, 68] & 协同正则化 [239, 302] | |
量化 (§8) | 异质性 (§8.1) | 重要性 [78, 195]、偏差 [92, 199] & 噪声 [163] |
互联性 (§8.2) | 连接 [3, 42, 255] & 交互 [94, 149, 285] | |
学习 (§8.3) | 泛化 [150, 212]、优化 [284, 293] & 权衡 [151] |
图 5. 挑战 1 旨在学习能够反映个别模态元素之间跨模态交互的表示方法,通过以下三种方式:
- 融合:整合信息以减少单独表示的数量;
- 协调:交换跨模态信息,目标是在保持相同数量表示的同时改善多模态的上下文化;
- 分裂:创建更多的解耦表示,反映内部结构的知识。
挑战 1:表示学习
第一个基本挑战是学习能够反映跨模态交互的表示,这些交互发生在不同模态的各个元素之间。这个挑战可以看作是学习元素之间的“局部”表示,或者使用整体特征来表示。 本节内容包括:
- 表示融合:整合来自两个或多个模态的信息,有效减少单独表示的数量;
- 表示协调:交换跨模态信息,旨在保持表示数量不变,但改善多模态的情境化处理;
- 表示分裂:创建一组新的解耦表示,通常比输入集的表示数量更多,反映了关于内部结构的知识,如数据聚类或因子分解(见图5)。
3.1 子挑战 1a:表示融合
表示融合的目标是学习一个联合表示,能够建模不同模态之间个体元素的跨模态交互,从而有效地减少单独表示的数量。我们将这些方法分为两类:
- 与抽象模态的融合:首先应用合适的单模态编码器,以捕捉每个元素(或整个模态)的整体表示,然后使用若干表示融合的构建模块来学习联合表示。因此,融合发生在抽象表示层面。
- 与原始模态的融合:这种方法涉及在非常早期阶段进行表示融合,且通常只进行最小化预处理,甚至可能涉及原始模态本身。
与抽象模态的融合
我们从加性和乘性交互开始讨论抽象表示的表示融合。这些运算符可以视为可微的构建模块,结合来自两个数据流的信息,并且可以灵活地插入几乎任何单模态机器学习管道中。给定单模态数据或特征 x1
和 x2
,加性融合可以看作是学习一个新的联合表示 zmm = 𝑤0 + 𝑤1x1 + 𝑤2x2 + 𝜖
,其中 𝑤1
和 𝑤2
是学习的加性融合权重,𝑤0
是偏置项,𝜖
是误差项。如果联合表示 zmm
直接作为预测 𝑦ˆ
,则加性融合类似于晚期或集成融合 𝑦ˆ = 𝑓1(x1) + 𝑓2(x2)
,其中 𝑓1
和 𝑓2
是单模态预测器 [74]。否则,加性表示 zmm
也可以经历后续的单模态或多模态处理 [23]。
乘性交互将加性交互扩展为包含交叉项 𝑤3(x1 × x2)
。这些模型在统计学中被广泛使用,可以解释为 x1
对 x2
和 𝑦
之间线性关系的调节效应 [25]。总体而言,纯粹的加性交互 zmm = 𝑤0 + 𝑤1x1 + 𝑤2x2
可以看作是输入模态 x1
和 x2
之间的一级多项式,而结合加性和乘性 zmm = 𝑤0 + 𝑤1x1 + 𝑤2x2 + 𝑤3(x1 × x2)
则捕捉到了二级多项式。
为了进一步超越一级和二级交互,张量特别设计用来显式捕捉跨模态的高阶交互 [310]。给定单模态数据 x1
和 x2
,张量被定义为 zmm = x1 ⊗ x2
,其中 ⊗ 表示外积 [28, 76]。高阶张量积表示元素之间的高阶多项式交互 [98]。然而,计算张量积的代价较高,因为它们的维度随着模态数量的增加而呈指数级增长,因此提出了基于低秩分解的几种高效近似方法 [98, 158]。
最后,乘性交互(MI)将加性和乘性运算符推广为包括可学习参数,捕捉二阶交互 [117]。在其最一般的形式中,MI 定义为双线性产品 zmm = x1Wx2 + x⊤1 U + Vx2 + b
,其中 W
、U
、Z
和 b
是可训练的参数。
多模态门控单元/注意力单元学习的表示在每个输入上动态变化 [47, 284]。它的通用形式可以写为 zmm = x1 ⊙ ℎ(x2)
,其中 ℎ
表示具有 sigmoid 激活函数的函数,⊙
表示逐元素相乘。ℎ(x2)
通常被称为从 x2
学习到的“注意力权重”,用以关注 x1
。近期的研究探索了更具表现力的注意力权重学习形式,如使用查询-键-值机制 [261],全连接神经网络层 [18, 47],甚至是用于更精确注意力的硬门控单元 [55]。
表示融合:加性交互、乘性交互、张量交互及多模态门控/注意力单元
背景 在多模态学习中,融合来自不同模态(如图像、文本、音频)的单模态数据(如
x1
和x2
),生成联合表示(zmm
)用于任务推理(如分类、预测)。本文讨论加性交互、乘性交互、张量交互和门控/注意力机制。
- 加性交互(Additive Interaction)
什么是加性交互? 通过线性相加融合单模态特征,假设模态关系为线性。数学形式: zmm = w0 + w1x1 + w2x2 + ε
w0
:偏置项(常数)。w1
、w2
:加性权重,决定x1
和x2
贡献。ε
:误差项。直观理解:
- 示例:笔记本电脑图像(
x1
)和“高性能”文字(x2
)相加,权重(w1
、w2
)调整贡献。- 类似于“后期融合”: ŷ = f1(x1) + f2(x2)
其中
f1
和f2
为单模态预测器。应用与局限:
- 优点:简单、可微分,易嵌入单模态模型。
- 局限:仅捕捉线性第一级关系,无交互。
zmm
可直接为预测ŷ
,或进一步处理。
- 乘性交互(Multiplicative Interaction)
什么是乘性交互? 在加性基础上引入交叉项x1 × x2
,捕捉二阶非线性关系。数学形式: zmm = w0 + w1x1 + w2x2 + w3(x1 × x2)
w3
:乘性权重,控制交叉项贡献。直观理解:
- 示例:
x1
(屏幕大小)和x2
(高性能)交互,大屏幕增强高性能预测“高端笔记本”。- 解释为
x1
调节x2
与输出y
的线性关系。应用与局限:
- 优点:捕捉模态交互,适合需要二阶关系任务。
- 局限:仅限于二阶,复杂场景需更高阶模型。
- 张量交互(Tensor Interaction)
什么是张量交互? 显式捕捉高阶模态交互,使用外积建模复杂关系。数学形式: zmm = x1 ⊗ x2
⊗
:外积,生成高维张量,捕捉高阶多项式交互。直观理解:
- 示例:
x1
(屏幕大小、颜色)和x2
(性能、品牌)所有特征对交互(如大小×性能、颜色×品牌)。- 捕捉更复杂模式。
应用与局限:
- 优点:捕捉高阶交互,适合复杂任务。
- 局限:计算成本高,维度随模态数量指数增长。常用低秩分解优化。
- 乘性交互(MI,扩展版)
什么是乘性交互(扩展版)? 通用的乘性交互,通过可学习参数捕捉二阶交互。数学形式: zmm = x1Wx2 + x1⊤U + Vx2 + b
W
:权重矩阵,捕捉双线性交互。U
、V
:权重向量,线性变换x1
和x2
。b
:偏置项,所有参数可训练。直观理解:
- 示例:
x1
(图像)和x2
(文本)交互,W
学习两者的模式(如大小×性能)。应用与局限:
- 优点:灵活、适应性强。
- 局限:计算复杂,需优化。
- 多模态门控单元/注意力单元
什么是门控/注意力机制? 动态调整模态贡献,根据一模态关注另一模态关键部分。数学形式: zmm = x1 ⊙ h(x2)
⊙
:逐元素相乘。h(x2)
:函数(如 sigmoid),从x2
学习“注意力权重”,关注x1
。直观理解:
- 示例:
x1
(笔记本图像)和x2
(“高性能”文本),h(x2)
突出图像中处理器,生成联合表示。- 注意力(如查询-键-值、神经网络)增强灵活性。
应用与局限:
- 优点:动态、适应性强,适合复杂任务。
- 局限:计算复杂,需大量数据训练。
总结与新手建议
- 加性交互:简单线性融合,适合初学者,局限在第一级关系。
- 乘性交互:捕捉二阶交互,适合需要交互的任务。
- 张量交互:高阶融合,强大但计算昂贵。
- 门控/注意力:动态融合,适合复杂场景。
图7。表示协调函数存在一个谱系:强协调旨在强制在所有维度上实现强等价,而部分协调则只在某些维度上进行协调,以捕捉更一般的连接,如相关性、顺序、层次结构或关系。
与原始模态的融合
与原始模态的融合涉及在非常早期的阶段进行表示融合,甚至可能涉及原始模态本身。这些方法通常类似于早期融合 [23],即在应用预测模型之前对输入数据进行连接(例如,zmm = [x1, x2]
)。在原始模态级别进行融合更具挑战性,因为原始模态可能会展示出更多维度的异质性。然而,Barnum 等人 [24] 展示了早期阶段融合的鲁棒性优势,而 Gadzicki 等人 [77] 也发现复杂的早期融合可以优于抽象融合。
为了应对复杂早期融合中更大的异质性,许多方法依赖于适用于两种模态的通用编码器,如卷积层 [24, 77] 和 Transformers [150, 153]。然而,这些复杂的非加性融合模型是否真正学习了模态元素之间的非加性交互呢?根据 Hessel 和 Lee [94] 的观点,答案并不一定是肯定的。我们将在量化挑战部分 (§8) 中探讨这些基本的分析问题及更多内容。
3.2子挑战 1b:表示协调
表示协调旨在学习通过相互连接进行协调的多模态上下文化表示(图 7)。与表示融合不同,表示协调保持相同数量的表示,但改善多模态上下文化。我们首先讨论强协调,它强制在模态元素之间实现强等价,然后转向部分协调,它捕捉更一般的连接,如相关性、顺序、层次结构或超越相似性的关系。
强协调旨在将语义上对应的模态拉近到一个协调空间中,从而强制在模态元素之间实现强等价。例如,这些模型会鼓励将“dog”这个词的表示和一张狗的图片的表示拉近(即语义正对),而“dog”与一张汽车图片的距离则拉远(即语义负对)[75]。协调距离通常使用余弦距离 [174, 287] 或最大间隔损失 [102]。最近的研究探索了通过扩大图像和文本对的对比学习来进行大规模表示协调 [206],并发现对比学习确实能够捕捉到两个视图之间的冗余信息 [256, 258](但不是非冗余信息)。除了对比学习外,一些方法通过将来自一种模态的数据映射到另一种模态来学习协调空间 [69]。例如,Socher 等人 [236] 将图像嵌入映射到词嵌入空间,以实现零-shot 图像分类。类似的思路被用来学习文本、视频和音频之间的协调表示 [202],以及预训练语言模型和图像特征之间的协调表示 [249]。
部分协调:部分协调并不严格通过强协调捕捉等价性,而是捕捉更一般的模态连接,如相关性、顺序、层次结构或关系。为了实现这些目标,部分协调模型在表示空间上强制执行不同类型的约束,这些约束超出了语义相似性,可能仅限于表示的某些维度。
CCA:典型相关分析(CCA)计算一个线性投影,以最大化两个随机变量之间的相关性,同时强制新表示中的每个维度彼此正交 [254]。CCA模型被广泛应用于跨模态检索 [211]、视听信号分析 [221] 和情感识别 [186]。为了增加CCA的表达能力,提出了若干非线性扩展方法,包括核CCA [134]、深度CCA [16] 和CCA自编码器 [283]。
顺序和层次空间:另一个表示协调的例子来自图像和语言的顺序嵌入 [276],该方法旨在捕捉语言和图像嵌入上的部分顺序,以在协调空间中强制执行层次结构。Young 等人 [306] 提出了一个使用指称图的类似模型,其中指称图被用来引导这种部分顺序层次。
关系协调:为了学习一个协调空间,捕捉元素之间超越对应关系的语义关系,Zhang 等人 [319] 使用文本和图像的结构化表示来创建多模态概念分类法。Delaherche 和 Chetouani [61] 学习捕捉层次关系的协调表示,而 Alviar 等人 [12] 使用部分相关度量应用语音和音乐的多尺度协调。最后,Xu 等人 [298] 使用Cauchy损失学习协调表示,以增强对异常值的鲁棒性。
表示协调的概述
表示协调(Representation Coordination)是多模态学习中的一种技术,旨在学习多模态数据的“上下文化表示”(contextualized representations),通过模态间的连接(connection)实现协调。与“表示融合”(Representation Fusion,之前讨论的加性、乘性等方法)不同,表示协调并不减少或增加表示的数量,而是优化和改进模态表示之间的关系,使其在多模态任务中更好地协作。目标:让不同模态(如图像、文本、音频)的表示在某个“协调空间”中保持一致性或相关性,从而支持任务(如分类、检索、生成)。
与表示融合的区别:融合通常整合多个表示生成一个新的联合表示,而协调保持多个独立表示,但优化它们之间的关系。 图7展示了表示协调的谱系,从强协调(强等价)到部分协调(更一般连接,如相关性、顺序、层次结构)。我们将围绕这段文字逐步展开。
- 强协调 强协调的目标是强制模态元素之间实现强等价,即将语义上对应的模态表示拉近到一个协调空间中,而语义上不对应的表示则拉远。
核心概念:
强等价:模态表示在所有维度上尽可能一致或高度相关。例如,将“dog”(文本)与一张狗的图片的表示拉近,而与一张汽车图片的表示拉远。
协调空间:一个共享的表示空间(比如向量空间),在其中不同模态的表示被调整为满足某种距离或相似性约束(如余弦距离或最大间隔损失)。 实现方法:
对比学习(Contrastive Learning):通过对比正对(positive
pairs,如“dog”文本和狗图片)和负对(negative
pairs,如“dog”文本和汽车图片)优化表示。负对的距离被拉大,正对的距离被拉近。 例如,大规模对比学习(如 CLIP 模型)通过图像-文本对训练,捕捉模态间的冗余信息。
模态映射:将一种模态的数据映射到另一种模态的表示空间。例如,将图像嵌入映射到词嵌入空间,用于零-shot 学习(无需训练数据直接分类)。
引用的文献解释:
[75]:未具体说明,可能指对比学习的早期研究,强调强协调通过语义对齐拉近正对、拉远负对。 [174,
287]:使用余弦距离(cosine distance)衡量模态表示的相似性,确保语义对应的表示接近。
[102]:提出最大间隔损失(max-margin loss),强制正对距离小、负对距离大。 [206]:探索大规模对比学习(如
CLIP),发现它能捕捉模态间的冗余信息(共享信息),但可能忽略非冗余信息(独特信息)。 [256,
258]:进一步验证对比学习在捕捉模态冗余信息方面的有效性。 [69]:研究将一种模态映射到另一种模态的协调空间,如图像到文本。
[236](Socher 等人):提出将图像嵌入映射到词嵌入空间,实现零-shot 图像分类。例如,基于预训练的词向量判断未见过图像的类别。
[202]:扩展到文本、视频、音频间的协调表示,探索跨模态一致性。 [249]:研究预训练语言模型(如 BERT)和图像特征(如ResNet)之间的协调表示,优化多模态任务。 示例:
假设有一张狗的图片(图像模态)和“dog”的文本(文本模态)。强协调会通过对比学习或余弦距离优化,使两者的表示在协调空间中非常接近(语义正对),而“dog”文本与汽车图片的表示距离拉远(语义负对)。
- 部分协调(Partial Coordination) 部分协调不追求强等价,而是捕捉更一般的模态连接,如相关性、顺序、层次结构或超越相似性的关系。它在表示空间上施加特定约束,仅在某些维度或关系上协调。
核心概念: 部分协调更灵活,不要求模态表示完全一致,只关注特定关系或属性。
协调空间:仍然是一个共享表示空间,但约束较弱,可能只在相关性、顺序或层次上对齐。
实现方法:
典型相关分析(CCA):计算线性投影,最大化两个随机变量(模态表示)之间的相关性,同时确保新表示维度正交。 CCA广泛用于跨模态检索、视听分析和情感识别。 扩展包括核 CCA(非线性)、深度 CCA(深度学习)和 CCA 自编码器(结合自编码结构)。
顺序和层次空间:捕捉模态表示的顺序或层次关系。例如,图像和语言的嵌入可能按时间或类别层次对齐。
关系协调:学习模态间的结构化关系,超越简单相似性,如文本和图像的分类法或层次关系。
引用的文献解释:
[254]:经典 CCA模型,计算线性投影最大化模态相关性,广泛用于跨模态任务。 [211]:在跨模态检索中应用 CCA,优化图像和文本的相关性。
[221]:用于视听信号分析(如视频中的图像和音频同步)。 [186]:在情感识别中应用 CCA,协调图像和文本的情感表示。
[134]:提出核 CCA(Kernel CCA),通过核方法引入非线性,增强表达能力。 [16]:提出深度 CCA(Deep
CCA),结合深度学习捕捉复杂模态关系。 [283]:提出 CCA 自编码器,结合自编码结构优化表示。
[276]:研究图像和语言的顺序嵌入,捕捉部分顺序以建立层次结构。 [306](Young 等人):使用指称图(referential graphs)引导图像和语言的顺序层次协调。 [319](Zhang
等人):使用文本和图像的结构化表示创建多模态概念分类法,捕捉超越对应关系的语义关系。 [61](Delaherche 和 Chetouani):学习捕捉层次关系的协调表示,如语音和情感的层次结构。 [12](Alviar 等人):使用部分相关度量(如 Pearson 相关)应用语音和音乐的多尺度协调。 [298](Xu 等人):使用 Cauchy 损失学习协调表示,提升对异常值的鲁棒性(如噪声数据)。 示例: CCA 示例:在一组图像和文本数据中,CCA 找到线性投影,使图像特征和文本特征的相关性最大化。例如,笔记本电脑图像和“高性能电脑”文本的相关性被增强,用于跨模态检索。
顺序和层次示例:视频中的图像序列和语音描述可能按时间顺序协调,确保“人说话”的图像与“声音”按顺序对齐。
关系协调示例:笔记本电脑图像(属于电子设备)和文本“电子设备”形成层次关系,协调空间捕捉“笔记本电脑是电子设备的一部分”的结构。
协调空间是什么?
协调空间是一个共享的表示空间(通常是向量空间),在其中不同模态的表示被优化或调整,以满足特定任务或关系的约束。
它的特点包括:目的:让模态表示在空间中保持一致性、相关性或特定关系(如等价、顺序、层次)。 实现方式:
通过距离度量(如余弦距离)或损失函数(如对比损失、CCA 目标)优化。 可能通过线性投影(如 CCA)、非线性映射(如深度学习)或结构化方法(如指称图)构建。 特性:表示空间可以是低维或高维,线性或非线性,取决于协调方法(如 CCA 是线性的,深度 CCA 是非线性的)。
示例:
在强协调中,协调空间可能要求“dog”文本和狗图片的向量距离非常小(接近零),而与汽车图片的距离很大。
在部分协调中,协调空间可能只要求笔记本电脑图像和“电子设备”文本在类别层次上相关,而不要求完全一致。
总结与新手建议
表示协调:优化多模态表示间的关系,保持表示数量不变,区别于融合(生成新表示)。
强协调:强制等价,如对比学习拉近语义正对、拉远负对(适合高一致性任务)。
部分协调:捕捉一般连接,如 CCA(相关性)、顺序嵌入(时间顺序)、关系协调(层次结构),适合灵活任务。
协调空间:共享表示空间,通过约束(如距离、相关性)优化模态表示。
协调表示的目标是让不同模态(如图像和文本)的表示在共享表示空间中建立关联性,这通常通过优化表示之间的距离或相关性来实现(如拉近语义正对、拉远语义负对)
以下是协调表示在多模态学习中的典型实现流程:1.独立编码(Independent Encoding):
每个模态的数据(模态一和模态二)通过各自的编码器(encoder)独立编码为特征向量(通常是低维向量)。
例如,图像通过卷积神经网络(CNN,如 ResNet)编码为特征向量,文本通过变换器(Transformer,如 BERT)编码为特征向量。
2.映射到共享空间(Projection to Shared Space):
将每个模态的特征向量投影到一个共享的表示空间(协调空间),通常通过线性层或非线性变换(如 MLP)实现。这确保模态表示可以在同一空间比较或优化。 优化表示间的关联性(Coordinating Representations):
3.通过损失函数(如对比损失、余弦距离、CCA 损失)优化,表示之间的距离或相关性被调整:
拉近语义正对:例如,图像和与之对应的文本表示距离变小。 拉远语义负对:例如,图像与不相关文本的表示距离变大。
常见的距离度量包括余弦相似度(Cosine Similarity)或欧几里得距离(Euclidean Distance)。 训练和更新:
4.使用梯度下降优化编码器和投影层的参数,使损失最小化,从而实现协调。
import torch
import torch.nn as nn
import torch.optim as optim
# 1. 定义编码器(独立编码模态)
class ImageEncoder(nn.Module):
def __init__(self):
super(ImageEncoder, self).__init__()
# 假设使用简化的 CNN 编码器
self.cnn = nn.Sequential(
nn.Conv2d(3, 64, 3), # 图像输入 (3 通道,如 RGB)
nn.ReLU(),
nn.Flatten(),
nn.Linear(64 * 14 * 14, 512) # 输出 512 维特征
)
def forward(self, x):
return self.cnn(x)
class TextEncoder(nn.Module):
def __init__(self):
super(TextEncoder, self).__init__()
# 假设使用简化的 Transformer 编码器
self.transformer = nn.Sequential(
nn.Embedding(1000, 300), # 词嵌入
nn.Linear(300, 512) # 输出 512 维特征
)
def forward(self, x):
return self.transformer(x)
# 2. 定义投影层(映射到共享空间)
class ProjectionHead(nn.Module):
def __init__(self, input_dim=512, output_dim=128):
super(ProjectionHead, self).__init__()
self.project = nn.Sequential(
nn.Linear(input_dim, output_dim),
nn.ReLU(),
nn.Linear(output_dim, output_dim) # 共享空间维度为 128
)
def forward(self, x):
return self.project(x)
# 3. 定义模型
image_encoder = ImageEncoder()
text_encoder = TextEncoder()
image_project = ProjectionHead()
text_project = ProjectionHead()
# 4. 损失函数:对比损失(拉近正对、拉远负对)
class ContrastiveLoss(nn.Module):
def __init__(self, temperature=0.07):
super(ContrastiveLoss, self).__init__()
self.temperature = temperature
def forward(self, image_features, text_features, labels):
# 假设 labels 为 1(正对)或 0(负对)
batch_size = image_features.size(0)
# 投影到共享空间
image_proj = image_project(image_features)
text_proj = text_project(text_features)
# 计算余弦相似度
cos = nn.CosineSimilarity(dim=-1, eps=1e-8)
similarity = cos(image_proj.unsqueeze(1), text_proj.unsqueeze(0)) / self.temperature
# 对比损失(拉近正对,拉远负对)
loss = 0
for i in range(batch_size):
for j in range(batch_size):
if labels[i] == labels[j] and labels[i] == 1: # 正对
loss -= torch.log(torch.exp(similarity[i, j]) / torch.sum(torch.exp(similarity[i])))
elif labels[i] != labels[j]: # 负对
loss -= torch.log(1 - torch.exp(similarity[i, j]) / (1 + torch.exp(similarity[i, j])))
return loss / (batch_size * batch_size)
# 5. 训练循环(伪代码)
def train(model, data_loader, epochs=10):
criterion = ContrastiveLoss()
optimizer = optim.Adam(list(model.parameters()), lr=0.001)
for epoch in range(epochs):
for image_batch, text_batch, labels in data_loader:
# 编码
image_features = image_encoder(image_batch)
text_features = text_encoder(text_batch)
# 计算损失
loss = criterion(image_features, text_features, labels)
# 反向传播和优化
optimizer.zero_grad()
loss.backward()
optimizer.step()
return model
# 6. 使用示例
# 假设有图像和文本数据
image_data = torch.randn(32, 3, 224, 224) # 32 张图像 (3 通道, 224x224)
text_data = torch.randint(0, 1000, (32, 10)) # 32 段文本 (每个 10 个词)
labels = torch.randint(0, 2, (32,)) # 0 或 1 表示正对/负对
# 训练模型
model = train((image_encoder, text_encoder, image_project, text_project), data_loader=None, epochs=10)
代码实现中的关键点
- 独立编码: • 图像和文本通过各自的 ImageEncoder 和 TextEncoder 独立编码为特征向量(如 512 维)。 • 编码器可以是预训练模型(如 ResNet for 图像,BERT for 文本),然后微调或冻结。
- 投影到共享空间: • ProjectionHead 通过线性层将特征向量映射到共享空间(如 128 维),确保模态表示可比较。 • 共享空间是协调空间的核心,允许计算距离或相似性。
- 拉近距离: • 使用对比损失(如上例中的 ContrastiveLoss)拉近语义正对(labels=1)的表示,拉远语义负对(labels=0)。 •
余弦相似度是常见度量,公式为: cos(θ) = (x · y) / (||x|| · ||y||) 其中 x 和 y
是共享空间中的表示向量,θ 是夹角。- 训练目标: • 优化编码器和投影层的参数,使正对表示的相似度高(距离小),负对表示的相似度低(距离大)。 对于部分协调(如 CCA),实现可能更复杂,通常涉及以下步骤:
#特征提取:如上,独立编码为特征向量。 CCA 优化:使用线性投影最大化 x1 和 x2 的相关性,同时保持新表示正
#交。PyTorch没有内置 CCA,但可以用以下伪代码表示:
# 简化的 CCA 实现(伪代码)
def cca(x1, x2, dim=128):
# 标准化特征
x1 = (x1 - x1.mean()) / x1.std()
x2 = (x2 - x2.mean()) / x2.std()
# 计算协方差矩阵
C11 = x1.T @ x1 / (x1.size(0) - 1)
C22 = x2.T @ x2 / (x2.size(0) - 1)
C12 = x1.T @ x2 / (x1.size(0) - 1)
# 求解广义特征值问题,获得投影矩阵 W1 和 W2
# 投影 x1 和 x2 到新空间
proj_x1 = x1 @ W1
proj_x2 = x2 @ W2
return proj_x1, proj_x2
#使用 CCA 协调表示
image_features_proj, text_features_proj = cca(image_features, text_features)
#损失函数:最大化投影后的相关性,同时最小化正交性损失。
为什么使用不同的编码器?
在多模态学习中,图像、文本、音频等不同模态的数据具有异质性(heterogeneous nature),它们的原始格式和特征分布差异很大:
为什么使用相同的投影层?
在协调表示中,两个模态的特征(image_features 和 text_features)经过各自的编码器后,通常通过一个**相同的投影层(Projection Head)**映射到同一个共享表示空间
统一表示空间:不同模态的特征维度和分布可能不同(如图像特征偏向空间信息,文本特征偏向语义信息)。通过相同的投影层,将它们映射到相同的低维共享空间(协调空间),使模态表示可以在同一尺度上比较和优化。
例如,余弦相似度或欧几里得距离需要表示在同一空间中才能有效计算。
保持一致性:相同的投影层(结构和参数相同)确保模态表示遵循相同的变换规则,减少模态间的异质性,增强协调性。这有助于模型学习模态间的语义对齐或相关性,而不引入额外的模态偏差。
参数高效性:使用相同的投影层减少模型参数数量,避免为每个模态单独设计投影层,简化训练并降低过拟合风险。
表示裂变创建了一组更大的解耦表示,反映了关于内部结构的知识。(1) 模态级裂变主要在每种模态中分解为模态特定的信息,以及在两种模态中的冗余的多模态信息,而(2)细粒度裂变试图将多模态数据进一步分解为单个子空间。
3.3子挑战 1c:表示分裂
最后,表示分裂旨在创建一组新的解耦表示(通常比输入表示集数量更多),这些表示反映了多模态内部结构的相关知识,如数据聚类、独立变化因素或模态特定信息。与联合表示(joint representations)和协调表示(coordinated representations)相比,表示分裂能够实现细致的解释和精细的控制能力。根据解耦因子的粒度,方法可以分为模态级分裂和细粒度分裂(见图 8)。
数据聚类:将数据分组为语义相似的子集。 独立变化因素:分离影响数据的独立变量(如颜色、形状、文本意义)。 模态特定信息:提取每个模态独有的信息。
表示分裂的优势在于:
细致解释:解耦表示便于理解多模态数据的组成。 精细控制:可以单独操作或分析每个解耦因子(如生成特定模态信息或预测特定变化)。
模态级分裂:
其目标是将表示分解为主导每个模态的模态特定信息以及在两个模态中冗余的多模态信息 [101, 262]。解耦表示学习旨在学习彼此独立的潜变量,每个潜变量解释数据的特定变化 [30, 95],并通过对模态特定和多模态潜变量施加独立性约束,对模态级分裂非常有用 [101, 262]。Tsai 等人 [262] 和 Hsu 与 Glass [101] 研究了分解的多模态表示,并展示了模态特定和多模态因子在生成和预测中的重要性。Shi 等人 [231] 在多模态变分自编码器(VAE)中使用专家混合层(mixture-of-experts layer)研究模态级分裂,而 Wu 与 Goodman [292] 则使用专家乘积层(product-of-experts layer)。
详情可见:模态级分裂详细解读与学习路线
事后表示解耦(Post-hoc Representation Disentanglement):
当难以重新训练一个解耦模型时(尤其是对于大型预训练多模态模型),事后表示解耦是合适的。经验多模态加性函数投影(EMAP)[94] 是一种事后解耦方法,用于在多模态任务中分离单模态(加性)贡献和跨模态交互的影响,适用于任意多模态模型和任务。EMAP 还与使用 Shapley 值进行特征解耦和解释密切相关 [176],这些值也可用于一般模型的事后表示解耦。
事后表示解耦(Post-hoc Representation Disentanglement)
概述 事后表示解耦在无法重新训练大型预训练多模态模型时使用,目标分离单模态(加性)贡献和跨模态交互,实现表示分裂(解耦表示)。
实现表示分裂
- 输入:预训练模型的输出或表示(如狗图像+“dog”文本的预测)。
- 分解:分离单模态(如图像颜色)和跨模态交互(如一致性增强),生成新解耦表示。
- 输出:模态特定、多模态冗余和交互表示,数量多于输入。
EMAP(经验多模态加性函数投影)是什么?
- 定义:事后解耦方法,分离单模态贡献和跨模态交互,适用于任意多模态模型。
- 工作原理:假设输出为单模态加和+交互,统计估计贡献,投影为解耦表示。
- 例子:狗图像+“dog”文本,分离颜色、语义和一致性增强。
- 有效性:无需重训、通用性强、提供解释。
Shapley 值是什么?
- 定义:博弈论方法,量化每个输入对输出的平均贡献,用于特征解耦和解释。
- 工作原理:计算所有输入组合的边际增益,分配贡献(如图像、文本、交互)。
- 例子:狗预测中,分配图像颜色、文本语义和交互贡献。
- 与 EMAP 相关:两者事后分析输出,分离单模态和交互。
为什么在这里有效?
- 无需重训:适合大型预训练模型,节省成本。
- 通用性强:适用于任意模型和任务。
- 解释性和控制:提供细致解耦,便于分析和调整。
- 处理复杂交互:分离单模态和跨模态影响,满足分裂需求。
文献背景
- [94](EMAP):强调事后分离单模态和交互。
- [176](Shapley 值):可能指 SHAP 论文,扩展到多模态解耦。
总结与新手建议
- EMAP 和 Shapley 值通过分析输出实现解耦,适合大型模型。新手可从 EMAP 理解分离逻辑,学习 Shapley 值掌握贡献分配。实践用预训练模型(如 CLIP)验证。如需代码示例,请告知!
细粒度分裂:
除了仅分解为各个模态表示外,细粒度分裂尝试进一步将多模态数据分解为模态覆盖的各个子空间 [277]。基于语义相似性的聚类方法 [165] 已与多模态网络集成,用于端到端的表示分裂和预测。例如,Hu 等人 [102] 将 𝑘-均值聚类与无监督视听学习结合。Chen 等人 [48] 将 𝑘-均值聚类与视频上的自监督对比学习结合。子空间聚类 [1]、近似图拉普拉斯算子 [125]、共轭混合模型 [124] 和字典学习 [126] 也已与多模态模型集成。受表示分裂类似目标的启发,矩阵分解技术已在多模态预测 [10] 和图像检索 [41] 中得到了若干应用。
!细粒度分裂:除了将多模态数据分解为各个模态的表示(模态级分裂,如图像和文本的独立部分),细粒度分裂进一步将每个模态或多模态数据分解为更小的、细致的子空间(subspaces)。这些子空间捕捉模态的特定方面或变化(如图像的颜色、形状,文本的语法、语义)。
! 子空间:子空间是数据表示的一个部分,包含特定类型的特征或模式。例如,图像的子空间可能包括“颜色子空间”“形状子空间”“纹理子空间”。
输入:一段视频(图像+音频)和对应的文本描述。
模态级分裂:分离图像特有(颜色、形状)、音频特有(音高、音量)、共享概念(“狗”)。
细粒度分裂:进一步分解为图像的颜色子空间(棕色)、形状子空间(站立)、音频的音高子空间(高音)、音量子空间(响亮),以及文本的语法子空间(“dog”单数)、语义子空间(“狗”概念)
*基于语义相似性的聚类方法 [165] 已与多模态网络集成:
先用多模态网络(如 CNN + Transformer)提取图像、音频、文本的表示(特征向量)。
然后应用 𝑘-均值聚类,将这些表示分组为语义相似的簇(如“狗”类、“猫”类)。
这些簇形成子空间,便于表示分裂和预测任务(如分类“狗”或检索相关图像)。
例子:
输入:视频(狗的图像+吠声)和文本(“dog”)。
提取特征:图像表示(狗的颜色、形状)、音频表示(吠声音高)、文本表示(“dog”语义)。
聚类:用 𝑘-均值将特征分组,生成“狗”子空间(颜色、吠声、语义相似点)。
结果:子空间帮助模型区分“狗”与其他类别(如“猫”),用于预测或检索
*𝑘-均值聚类与结合:
无监督视听学习 [102]:Hu 等人使用 𝑘-均值聚类在无监督视听数据(视频的图像+音频)上分组,形成子空间(如“狗吠声+狗图像”)。聚类结果作为无监督学习的中间表示,辅助模型学习多模态结构。
自监督对比学习 [48]:Chen 等人结合 𝑘-均值和自监督对比学习,通过对比视频帧和音频的正负样本,学习表示。然后用 𝑘-均值进一步分组,形成细粒度子空间(如视频中“狗的动作+声音”)。
关系:聚类提供分组结构,自监督/无监督学习提供高质量表示,二者结合实现端到端的表示分裂和预测。
例子:
输入:视频(狗的图像+吠声)。
无监督视听学习:提取图像和音频表示,发现“狗吠声+狗图像”模式。
𝑘-均值聚类:分组为“狗”子空间(颜色、吠声)和“背景”子空间。
自监督对比学习:对比狗视频帧和吠声,增强表示,𝑘-均值进一步细化子空间。
细粒度分裂中的方法与解释重新解释
- 子空间聚类 [1]
- 难点:子空间和线性/非线性结构如何捕获多模态数据?
- 解释:将数据分组为低维子空间,捕获特定结构(如颜色、形状)。算法找到子空间,分配数据点,分离图像颜色、形状子空间。
- 直观理解:像分类器,将狗视频特征分组为颜色(棕色)、形状(站立)子空间。
- 例子:狗视频分解为颜色(棕色)、形状(站立)子空间,用于预测“狗”。
- 近似图拉普拉斯算子 [125]
- 难点:图结构和拉普拉斯算子作用?
- 解释:基于数据点关系图,捕获同步模式(如视频图像-音频同步)。简化计算,找到集群或模式。
- 直观理解:像关系网,找到狗出现和吠声同步,形成视听子空间。
- 例子:狗视频捕获狗图像与吠声同步子空间,增强预测。
- 共轭混合模型 [124]
- 难点:概率混合和共轭如何分解数据?
- 解释:用概率分布混合分解数据为独立成分(如颜色、音调)。共轭简化计算,确保独立。
- 直观理解:像分离混合味道,找出颜色(棕色)、音调(吠声)成分。
- 例子:狗视频分解为颜色(棕色)、音调(吠声)子空间,集成到模型。
- 字典学习 [126]
- 难点:字典和基函数分离特征?
- 解释:学习基函数表示数据,分离独立特征(如纹理、音调)。用基函数重现数据,保持独立。
- 直观理解:像用基本音符重现乐谱,分离狗毛发(纹理)、吠声(音调)。
- 例子:狗视频分离纹理(毛发)、音调(吠声)子空间,用于预测。
- 矩阵分解在多模态预测和图像检索中的应用
- 难点:数学工具如何用在任务中?
- 解释:将高维矩阵分解为低秩因子,提取主成分(如颜色、语义)。用于预测(分类)或检索(匹配)。
- 直观理解:像拆解表格,找到狗颜色、语义模式,预测或检索相关图像。
- 例子:狗图像-“dog”文本矩阵分离为颜色(棕色)、语义(“狗”)子空间,预测狗类别或检索狗图像。
为什么有效?
- 细粒度分解捕获复杂结构,增强解释和控制。
- 与多模态模型结合提升预测/检索性能。
- 无监督/自监督利用数据结构,适合多模态任务。
总结 新手可从 𝑘-均值聚类开始,理解子空间概念;逐步探索子空间聚类、矩阵分解。如需代码或示例,请告知!
挑战 2:对齐
第二个挑战是识别多个模态之间的交叉模态连接和交互。例如,在分析一个人的语音和手势时,如何将特定的手势与所说的词语或话语对齐?模态之间的对齐是具有挑战性的,因为它可能依赖于长时间范围的依赖关系,涉及模糊的分割(例如词语或话语),并且可能是“一对一”、 “多对多” 或根本没有对齐。 本节介绍了多模态对齐的最新工作,涉及以下几个方面:
- 离散对齐:识别跨模态的离散元素之间的连接。
- 连续对齐:对具有模糊分割的连续模态信号进行对齐建模。
- 上下文化表示:通过捕获模态间的交互,学习更好的多模态表示(见图 9)。
对齐旨在识别模态元素之间的跨模态连接和相互作用。
最近的工作涉及(1)离散对齐以识别离散元素之间的连接,(2)连续信号与模糊分割的连续对齐,以及(3)情境化表示学习以捕捉连接元素之间的这些跨模态交互。
多模态对齐的解释
概述 多模态对齐识别不同模态(如语音-手势、图像-文本)间的连接和交互。挑战包括长时间依赖、模糊分割(如词语或手势边界)、以及“一对一”“多对多”或无对齐情况。图9 介绍了离散对齐、连续对齐和上下文化表示。
图 9 的解释
- 离散对齐(Discrete Alignment)
- 定义:识别离散元素间的明确连接(如词语、手势)。
- 图示:红色三角形(手势)和蓝色圆点(语音)通过直线连接,点对点匹配。
- 特点:假设元素独立、清晰,适合规则数据。
- 例子:语音“好的”对应点头手势,直接连接。
- 连续对齐(Continuous Alignment)
- 定义:对齐模糊分割的连续信号(如语音波形、手势轨迹),通过连续变换建模。
- 图示:红色三角形(连续信号)和蓝色圆点(连续信号)通过波浪线(时间扭曲)连接。
- 特点:处理动态、模糊数据,使用动态时间规整(DTW)或深度学习。
- 挑战:时间延迟、噪声、多对多关系。
- 实现:
- 动态时间规整(DTW):调整时间轴对齐信号(如语音和手势同步)。
- 深度学习:用 RNN/Transformer 捕捉长时间依赖。
- 例子:语音“这个计划很好”与挥手轨迹对齐,调整时间使“很好”与挥手高点匹配。
- 上下文化表示(Contextualized Representations)
- 定义:捕获模态交互和上下文,学习更丰富的表示。
- 图示:红色三角形和蓝色圆点通过复杂网络连接,包含交互关系。
- 特点:结合对齐和表示,适合复杂任务。
- 例子:语音“很高兴见到你”+微笑挥手,学习上下文(高兴情感)生成表示。
重点:连续对齐
- 含义:处理连续模态信号的模糊对齐,如语音波形、手势轨迹。
- 方法:DTW(时间扭曲)或深度模型(注意力机制)找到最佳匹配。
- 挑战:模糊分割、时间延迟、噪声、多对多关系。
- 应用:视频分析、情感识别(如语音-手势同步预测支持)。
总结 离散对齐适合明确连接,连续对齐处理模糊动态信号,上下文化表示学习复杂交互。新手可从离散对齐开始,理解点对点匹配;逐步学习连续对齐,掌握
DTW 和深度模型。如需代码示例,请告知!
4.1 子挑战 2a:离散对齐
第一个子挑战旨在识别多个模态的离散元素之间的连接。我们描述了近期的工作,主要涉及以下两个方面:
- 局部对齐:发现给定匹配的模态元素对之间的连接。
- 全局对齐:对齐需要在全局范围内进行,以学习连接和匹配(见图 10)。
离散对齐识别离散元素之间的连接,跨越(1)局部对齐以发现给定匹配对的连接,以及(2)全局对齐,其中必须全局执行对齐以学习模态元素之间的联系和匹配。
局部对齐特别适用于那些可以清晰分割为离散元素的多模态任务,例如文本中的词语或图像/视频中的物体边界框(例如,视觉核心参考解析[131]、视觉指代表达识别[58, 59]和跨模态检索[75, 203]等任务)。当我们拥有配对模态元素的监督数据时,对比学习是一种常见的方法,目标是匹配不同模态中表达相同概念的表示[23]。已经提出了多种目标函数,用于从不同数量的配对[43, 107]和未配对[85]数据中学习对齐空间。许多强制性[75, 152]或部分[16, 276, 319]表示协调的方法(§3.2)也适用于局部对齐。一些例子包括将书籍与对应的电影/剧本对齐[323],将指代表达与视觉对象匹配[169],以及在图像区域与描述之间找到相似性[105]。局部对齐方法还促进了共享语义概念的学习,这些概念不仅仅基于语言,还包括其他模态,如视觉[107]、声音[60, 236]和多媒体[323],这些概念对下游任务非常有用。
局部对齐适用的三类多模态任务
概述 局部对齐适合清晰分割为离散元素(如词语、物体边界框)的数据,与图 9 的离散对齐一致。以下解释视觉核心参考解析、视觉指代表达识别和跨模态检索。
- 视觉核心参考解析(Visual Coreference Resolution)[131]
- 定义:将文本指代(如“这只狗”)与图像物体对齐,解决指代歧义。
- 输入:图像(多物体,如两只狗)+ 文本(“这只狗在跑”)。
- 目标:匹配指代与具体边界框(如左边棕色狗)。
- 离散元素:文本词语、图像边界框,点对点连接。
- 挑战:指代模糊,需语义上下文。
- 方法:视觉检测(如 Faster R-CNN)+ 语言模型(如 BERT),计算相似性。
- 例子:图像(左棕狗跑,右黑狗坐)+ “这只狗在跑”→ 匹配左棕狗。
- 应用:图像描述、视觉 QA。
- 文献 [131]:研究文本-图像指代消解,强调局部对齐。
- 视觉指代表达识别(Visual Referential Expression Recognition)[58, 59]
- 定义:从文本指代表达式(如“左边的棕色狗”)识别图像特定物体。
- 输入:图像(多候选,如两狗)+ 文本(“左边的棕色狗”)。
- 目标:匹配表达式与边界框(如左棕狗)。
- 离散元素:文本表达式、图像边界框,点对点或简单映射。
- 挑战:表达式复杂,需属性匹配。
- 方法:视觉检测(如 YOLO)+ 语言模型(如 Transformer),计算匹配度。
- 例子:图像(左棕狗跑,右黑狗坐)+ “左边的棕色狗”→ 匹配左棕狗。
- 应用:图像检索、机器人导航。
- 文献 [58, 59]:研究自然语言描述识别目标,强调局部对齐。
- 跨模态检索(Cross-Modal Retrieval)[75, 203]
- 定义:用一种模态查询(如“棕色狗”文本)检索另一模态内容(如狗图像)。
- 输入:查询(文本/图像)+ 目标库(图像/文本)。
- 目标:匹配查询与目标(如“棕色狗”→ 棕狗图像)。
- 离散元素:文本关键词、图像边界框,点对点或简单映射。
- 挑战:语义差异,需高效对齐。
- 方法:预训练模型(如 CLIP)提取表示,计算相似性(如余弦距离)。
- 例子:文本(“一只棕色狗”)+ 图像库→ 检索棕狗图像。
- 应用:搜索引擎、内容推荐。
- 文献 [75, 203]:研究跨模态对齐,拉近正对、拉远负对,强调局部对齐。
- 损失函数如何实现局部对齐?
主要通过损失函数**:是,尤其对比损失、三元组损失优化正对/负对。
常见损失:
- 对比损失:拉近正对、拉远负对(如余弦相似度优化)。
Loss = -log(exp(sim(pos) / τ) / (exp(sim(pos) / τ) + ∑exp(sim(neg) / τ)))
其中:
sim(pos):正对的相似性(如余弦相似度)。
sim(neg):负对的相似性。
τ:温度参数,控制相似度的分布。
过程:计算正对和负对的相似度,优化表示使正对相似度高、负对相似度低- 三元组损失:锚点-正样本距离小,锚点-负样本距离大。
Loss = max(0, margin + dist(anchor, positive) - dist(anchor, negative))
其中:
dist:表示间的距离(如欧几里得距离)。
margin:最小距离阈值。
过程:选择一个锚点(如文本“狗”)、正样本(狗图像)、负样本(猫图像),优化表示使狗图像接近文本“狗”,远离猫图像。- 实现步骤:
- 特征提取(CLIP 提取表示)。
- 计算距离/相似性。
- 优化损失,拉近正对、拉远负对。
- 迭代训练。
例子:文本“棕色狗”+棕狗图像,拉近表示;+黑色猫图像,拉远表示。
总结局部对齐适用性:这些任务处理离散元素,适合点对点连接。
新手建议:从视觉核心参考解析理解指代,学习视觉指代表达识别掌握匹配,探索跨模态检索理解共享空间。如需代码或例子,请告知
全局对齐:当真实的模态配对不可用时,必须在两个模态之间的所有元素之间执行全局对齐。基于最优传输(Optimal Transport,OT)的方法[278](属于匹配算法的一类)是一个潜在的解决方案,因为它们通过将对齐问题表示为发散最小化问题,联合优化模态元素之间的协调函数和最优配对。这些方法对于对齐多模态表示空间非常有用[142,205]。为了缓解计算问题,近年来一些研究将这些方法与神经网络结合[54],使用熵正则化逼近最优传输[288],并提出了有效学习的凸松弛方法[85]。
概述:全局对齐与最优传输 全局对齐(Global Alignment)
是多模态学习中的一种对齐方法,适用于真实模态配对不可用(即没有明确标注的正对和负对)的情况。目标是在两个模态(如图像和文本)之间的所有元素之间执行全面的对齐,不局限于局部(离散)元素,而是考虑整体分布和关系。最优传输(Optimal
Transport, OT)
是一种数学框架,用于解决这种全局对齐问题,通过最小化“运输成本”(将一个模态的分布映射到另一个模态的分布)来优化对齐。
以下是关键术语的含义、原理以及相关方法的解释。 
- 最优传输(Optimal Transport, OT) 含义 • 定义:最优传输(也叫最优运输或 Wasserstein 距离)是一种数学方法,起源于 18 世纪的数学问题(Monge 和 Kantorovich
问题),用于描述如何以最低成本将一个概率分布(源分布)“运输”到另一个概率分布(目标分布)。 • 在多模态中的应用:在全局对齐中,OT
用于将一个模态(如图像特征的分布)映射到另一个模态(如文本特征的分布),找到最优的配对关系,优化模态间的整体一致性。 原理 •
基本问题:假设有两个模态的分布,比如: • 图像模态的分布(一组图像特征,如狗的颜色、形状)。 •
文本模态的分布(一组文本特征,如“棕色狗”“站立狗”)。 • OT 寻找一种“运输计划”(transport
plan),以最小的“成本”将图像分布映射到文本分布。 •
成本定义:成本通常是模态元素间的距离(如欧几里得距离、余弦距离)。例如,将图像“棕色狗”映射到文本“棕色狗”的成本低,映射到“黑色猫”的成本高。
• 优化目标:最小化总运输成本,同时满足概率分布的约束(源分布的总质量等于目标分布的总质量)。 • 数学形式(简化): 发短信  包装 
复制 min_cost = min ∑(cost(x, y) * p(x, y)) 其中: • x:图像特征,y:文本特征。 •
cost(x, y):运输成本(如距离)。 • p(x, y):运输计划(分配概率)。 • 结果:OT
提供一个全局配对方案,覆盖所有元素(而不是局部点对点),形成模态间的整体对齐。 例子 •
输入:一组图像(棕色狗、黑色猫)和一组文本(“棕色狗”“黑色猫”),无明确配对。 • OT
过程:计算图像和文本间的距离,找到最优运输计划(如棕色狗→“棕色狗”,黑→“黑”),最小化总成本。 •
输出:全局对齐所有图像和文本,生成一致的表示空间。 - 协调函数(Coordinating Function) 含义 • 定义:协调函数是全局对齐中的一个数学或模型组件,用于定义和优化模态元素之间的关系或映射。它描述如何将一个模态的分布调整(协调)到另一个模态的分布,确保整体一致性。
•
在多模态中的应用:协调函数通过调整表示空间(如图像和文本的向量空间),实现模态间的全局对齐。例如,它可能调整图像特征的分布,使其与文本特征的分布更接近。
原理 • 作用:协调函数通常是 OT 的一部分,联合优化最优配对和模态间的关系。 • 实现方式: •
可以是线性变换(如矩阵投影),将图像表示映射到文本表示空间。 • 也可以是深度学习模型(如神经网络层),学习复杂的非线性映射。 •
目标是最小化 OT 的运输成本,同时保持模态表示的语义一致性。 • 与 OT
的关系:协调函数与最优传输结合,定义模态间的映射规则。例如,调整图像和文本的表示,使它们的分布对齐(减少分歧)。 例子 •
输入:图像分布(棕色狗、黑色猫)和文本分布(“棕色狗”“黑色猫”)。 •
协调函数:学习一个线性或非线性变换,将图像分布调整为接近文本分布(如棕色狗的表示接近“棕色狗”文本)。 •
输出:协调后的表示空间,便于全局对齐。 - 最优配对(Optimal Matching) 含义 • 定义:最优配对是 OT 输出的结果,指在两个模态的所有元素之间找到的最佳配对方案,目标是最大化整体匹配质量或最小化运输成本。 •
在多模态中的应用:在全局对齐中,最优配对确定每个图像元素(如狗照片)与文本元素(如“狗”描述)之间的最佳对应关系,确保模态间的整体一致性。
原理 • 过程:通过 OT 的优化,计算所有可能配对的成本,并选择总成本最小的配对方案。 •
约束:配对必须满足概率分布的守恒(如图像总概率等于文本总概率)。 •
结果:生成一个全局映射矩阵(如图像-文本配对概率),表示每个图像元素与文本元素的匹配程度。 •
与局部对齐的区别:局部对齐关注离散点对点匹配(如“棕色狗”→具体边界框),而最优配对考虑所有元素的整体分布,适合无明确配对的数据。 例子 •
输入:10 张图像(5 张棕色狗、5 张黑色猫)+ 10 段文本(5 个“棕色狗”、5 个“黑色猫”),无配对。 • 最优配对:OT
找到映射(如 5 张棕色狗→5 个“棕色狗”,5 张黑→5 个“黑”),最小化总距离。 • 输出:全局配对方案,覆盖所有元素。 - 近年来一些研究将这些方法与神经网络结合、使用熵正则化逼近最优传输 含义 • 神经网络结合:将 OT 融入深度学习模型(如 CNN、Transformer),通过端到端训练优化全局对齐。神经网络学习协调函数和最优配对,捕获复杂非线性关系。 •
熵正则化逼近最优传输:在 OT 优化中加入熵正则化(Entropy
Regularization),使运输计划更平滑(分布更均匀),降低计算复杂度,同时近似最优解。 原理 • 神经网络结合 [54]: •
使用神经网络(如多层感知机 MLP 或 Transformer)学习协调函数,映射模态表示到共享空间。 • 结合 OT
损失,优化最优配对(如最小化运输成本)。 • 优点:捕捉非线性关系,适合大规模数据;缺点:计算复杂。 • 例子:用 CNN
提取图像特征,Transformer 提取文本特征,OT 优化全局对齐。 • 熵正则化逼近最优传输 [288]: • 传统 OT
问题(Monge-Kantorovich 问题)计算成本高,熵正则化通过添加熵项(鼓励均匀分布)简化优化:
min_cost = min ∑(cost(x, y) * p(x, y)) - λ * H§ 其中: • H(p):运输计划 p
的熵(衡量分布的均匀性)。 • λ:正则化强度(控制熵的影响)。 • 优点:减少计算复杂度,近似最优解;缺点:可能损失部分精度。 •
例子:对图像-文本分布优化,熵正则化使配对更平滑(如避免过度偏向某些配对)。 • 有效学习的凸松弛方法 [85]: •
提出凸优化方法(Convex Relaxation),简化 OT 的非线性问题,降低计算负担。 •
结合神经网络和熵正则化,实现高效全局对齐。 • 例子:用凸松弛加速图像-文本对齐,适合实时应用。 为什么有效? • 神经网络结合:增强 OT
的表达能力,捕捉复杂模式,适合多模态任务。 • 熵正则化:降低计算复杂度,适用于大规模数据;平滑分布避免过拟合。 •
凸松弛:简化优化,提升效率,适合实时对齐。  总结与新手建议 • 最优传输:将一个模态分布映射到另一模态,优化全局配对,适合无配对数据。
• 协调函数:定义模态映射关系,优化表示一致性。 • 最优配对:全局覆盖所有元素的最优映射方案。 • 神经网络+熵正则化:提升 OT
效率和表现,适合多模态对齐
图注:连续对齐解决连续信号对齐的困难,这些信号的元素分割不可直接获得。我们涵盖了相关工作:(1)连续表示空间的扭曲,(2)将连续信号按适当粒度分割为离散元素
4.2子挑战 2b:连续对齐
到目前为止,我们假设模态元素已分段和离散化。虽然某些模态有清晰分割(如句子词语、图像物体),但连续信号(如金融/医疗时间序列、卫星图像、MRI 图像)无清晰边界。基于扭曲和分割的方法包括:
连续扭曲(Continuous Warping):通过连续表示空间对齐模态,构建桥梁。对抗训练(领域不变表示)对齐多模态空间 [100, 103, 181]。DTW 对齐时间序列,结合 CCA 实现协调 [260]。
模态分割(Modality Segmentation):将连续信号分割为语义边界元素。时间分割如强制对齐(语音-词语)[309],聚类分组连续数据 [165]。方法如 VideoBERT [243]、VQ-VAE [271] 离散化视频/音频。
连续信号 vs. 离散元素: 离散元素:清晰分割、独立的单位,如句子中的词语“狗”或图像中的物体边界框(如狗的矩形框)。适合局部或离散对齐。
连续信号:没有明确边界的连续数据,如金融时间序列(股价变化)、医疗时间序列(心跳波形)、视频帧序列(手势轨迹)或 MRI图像(大脑活动时间变化)。这些信号时间或空间上连续变化,边界模糊。
例子:输入:一段视频(狗的连续图像+吠声)和 MRI 信号(看狗时的大脑活动)。
连续对齐:调整视频时间序列和 MRI 时间序列,使狗出现的时间段与大脑视觉区的激活同步
模态分割:将连续信号(如视频、音频、MRI)分割为具有语义意义边界的离散元素(如词语、关键帧)。
实现技术:
时间分割(Temporal Segmentation):
目标:找到连续信号中的时间边界(如视频中动作的开始/结束)。
强制对齐(Forced Alignment)[309]:
一种语音处理方法,将连续语音信号与转录的离散词语对齐。
过程:用隐马尔可夫模型(HMM)或深度模型,将语音波形分割为词语(如“狗”“跑”)。
例子:Malmaud 等人 [167] 利用分解 HMM 对齐 ASR 转录和真实标注。
优点:准确性高;缺点:依赖转录,计算复杂。
聚类方法(Clustering)[165]:
根据语义相似性分组连续数据,形成离散元素。
过程:用 𝑘-均值或谱聚类将视频/音频特征分组(如狗吠声和狗图像)。
例子:VideoBERT [243] 聚类视频特征为离散集合,进行掩码预训练。
优点:无监督,灵活;缺点:需设计相似性度量。
向量量化(Vector Quantization):
将连续特征离散化为固定码本(如 VQ-VAE [271]、DALL·E [210])。
过程:学习码本(离散表示),将连续信号映射为离散码。
例子:VQ-VAE 将视频帧离散化为码,辅助对齐。
直观理解:
想象一条连续的音频波形(狗的吠声),模态分割像“剪刀”,按语义边界(吠声开始/结束)切分为离散段(如“吠声 1”“吠声 2”)
4.3子挑战 2c:上下文化表示
最后,上下文化表示学习(Contextualized Representation Learning)旨在建模所有模态连接和交互,以学习更好的表示。上下文化表示常被用作中间(通常是潜)步骤,以提升许多下游任务的性能,包括语音识别、机器翻译、媒体描述和视觉问答。我们将上下文化表示的工作分为以下三类:(1)联合无向对齐、(2)跨模态有向对齐和(3)基于图的对齐(见图 12)。
联合无向对齐(Joint Undirected Alignment):旨在捕获跨模态对之间的无向连接,这些连接在任一方向上是对称的。文献中通常将其称为单模态、双模态、三模态交互等 [164]。联合无向对齐通常通过参数化模型中的对齐层并端到端训练多模态任务来捕捉。这些对齐层可以包括注意力权重 [47]、张量积 [158, 310] 和乘性交互 [117]。最近,Transformer 模型 [273] 作为强大的序列数据编码器出现,通过自动对齐和捕获不同时间步的互补特征。基于最初的文本 Transformer 模型,提出了多模态 Transformer,通过在序列维度上连接所有模态元素(即早期融合)执行联合对齐,使用全自注意力建模所有连接(即使用点积相似性核建模所有连接)[140, 243]。结果,所有模态元素以类似的方式与其他所有模态元素联合连接。
如何实现: 1.对齐层:使用模型参数(如注意力权重、 Tensor 积、乘互)建模连接。
注意力权重[47]:动态聚焦模态元素(如图像区域和文本词),计算相似性(如点积)。
Tensor 积[158,310]:捕捉高阶模态交互,形成联合表示。
乘互 [117]:引入交叉项(如图像 × 文本),增强对齐。
2.
Transformer [273,140, 243]:通过自注意力(Self-Attention)建模所有模态元素的连接,连接序列维度(早期融合),生成对称表示。
过程:将图像、文本特征拼接为序列(如 [图像特征, 文本特征]),用全自注意力捕获所有连接(如狗图像区域与“狗”词的点积相似性)
跨模态有向对齐(Cross-Modal Directed Alignment):以有向方式将源模态的元素关联到目标模态,可以建模非对称连接。例如,时间注意力模型使用对齐作为潜步骤来改善许多基于序列的任务 [297, 318]。这些注意力机制通常从输出指向输入,使得结果权重反映输入上的软对齐分布。多模态 Transformer 使用查询-键-值注意力机制,在一个模态的序列中关注另一个模态的序列,然后以双向方式重复。这导致生成两组非对称的上下文化表示,以考虑模态之间可能存在的非对称连接 [159, 248, 261]。这些方法对序列数据非常有用,可自动对齐并捕获不同时间步的互补特征 [261]。自监督多模态预训练也已成为训练这些架构的有效方式,旨在从大规模无标签多模态数据中学习通用表示,然后通过监督微调转移到特定下游任务 [140]。这些预训练目标通常包括单模态掩码预测、跨模态掩码预测和多模态对齐预测 [93]。
基于图的对齐(Graphical Alignment):将无向或有向对齐中的顺序模式推广到任意图结构之间。这有几个优点,因为它不需要所有元素都连接,并允许用户为不同连接选择不同的边函数。这一子类别中的解决方案通常使用图神经网络 [275],递归学习与局部连接邻域中的元素上下文化的元素表示 [223, 275]。这些方法已应用于多模态序列数据,如 MTAG [301] 捕获人类视频中的连接,F2F-CL [289] 进一步沿说话者轮次分解节点。
图注:上下文化表示学习旨在建模模态连接以学习更好的表示。最近方向包括:(1)联合无向对齐捕获对称连接、(2)跨模态有向对齐建模有向非对称连接、(3)基于图的对齐推广为任意图结构。