多模态融合方法综述

原创已于 2025-09-30 00:02:43 修改 · 421 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #多模态

于 2025-09-29 23:59:02 首次发布

多模态专栏收录该内容

4 篇文章

订阅专栏

本文介绍一篇多模态融合方法综述
在这里插入图片描述

简介

论文题目：Deep Multimodal Data Fusion
发表时间： 24 April 2024
期刊：ACM Computing Surveys
期刊等级：JCR分区: Q1；中科院分区升级版: 计算机科学1区；影响因子: 28.0；5年影响因子: 26.3

本文提出的动机/核心：
随着架构变得越来越复杂，多模态神经网络可以将特征提取、特征融合和决策过程集成到一个模型中。这些过程之间的界限越来越模糊。传统的多模态数据融合分类法（例如，早期/晚期融合）已不再适用于当今的深度学习时代。因此，本文提出了一种新的细粒度分类法，将最先进的（SOTA）模型分为五类：编码器-解码器方法、注意力机制方法、图神经网络方法、生成神经网络方法和其他基于约束的方法。

基础知识回顾

模态和多模态？
从每个来源/媒介获得的信息可以被视为一种模态。当模态数量大于 1 时，我们称之为多模态。
常见的多模态方法分类？
常见的传统的多模态融合方法常被分为四类，包括早期融合、中期融合、晚期融合和混合融合：
（1）早期融合（也称为“数据级融合”）：将从每种模态获得的原始数据或预处理数据融合在一起，然后发送到模型；
（2）中期融合（也称为“特征级融合”）：将从不同模态中提取的特征融合在一起，并发送到模型进行决策；
（3）晚期融合（也称为“决策级融合”）：将从每种模态获得的各个决策融合在一起形成最终预测，例如多数投票或加权平均值，或者基于各个决策的元机器学习模型。
（4）混合融合：早期、中期和晚期融合的组合。

随着大量多模态数据的出现，对更先进的融合方法的需求空前增长。然而，这种传统的融合分类只能为多模态数据融合提供基本指导。为了从多模态数据中提取更丰富的表征，深度神经网络（DNN）的架构变得越来越复杂，不再单独、独立地从每个模态中提取特征。相反，表征学习、模态融合和决策在大多数情况下是交织在一起的。 因此，无需精确指定多模态数据融合发生在网络的哪个部分。多模态数据融合的方法已经从传统的显式方法（例如早期融合、中期融合和后期融合）转变为更隐式的方法。

本文方法

本文将最新的融合方法将其分为5类：
编码器-解码器方法、注意力机制方法、GNN 方法、GenNN 方法和其他基于约束的方法，如图所示。
在这里插入图片描述

基于编码器-解码器的融合

编码器-解码器架构已成功应用于图像分割、语言翻译、数据缩减和去噪等单模态任务。在这种架构中，整个网络可以分为两个主要部分：编码器部分和解码器部分。编码器部分通常充当高级特征提取器，将输入数据投影到与原始输入数据相比维度相对较低的潜在空间。换句话说，输入数据将被编码器转换为其潜在表示。在此过程中，输入数据的重要语义信息将被保留，同时输入数据中的噪声将被消除。编码过程结束后，解码器将根据输入数据的潜在表示生成“预测”。

说明：由于编码器-解码器模型网络架构具有强大的表示学习能力和良好的灵活性，近年来编码器-解码器被越来越多地应用于深度多模态数据融合模型中。由于模态和任务的差异，多模态数据融合模型的架构也千差万别。在本综述中，我们总结了编码器-解码器融合方法的一般思想，并摒弃了一些无法推广的任务特定融合策略。

编码器-解码器融合的一般结构如图6所示。我们可以看到，从不同个体模态获得的高级特征被投影到潜在空间。然后，任务特定解码器将从学习到的输入多模态数据的潜在表示生成预测。在实际场景中，这种结构存在大量变体。我们将它们分为 3 个子类：原始数据级融合、分层特征融合和决策级融合。

在这里插入图片描述

编码器-解码器方法融合多模态数据的通用结构。每个编码器的输入数据可以是每种模态的原始数据，也可以是每种模态的特征。编码器可以独立运行，也可以共享权重。解码器可以包含上采样或下采样操作，具体取决于具体任务。

2.1 原始数据级融合

在这种融合中，每个模态的原始数据或从每个模态的独立预处理中获得的数据将在输入级别进行集成。然后，形成的多模态输入向量将被发送到一个编码器以提取高级特征。来自各个模态的数据在低级别（例如，输入级别）融合，并且只使用一个编码器来提取多模态数据的高级特征。

例如，对于图像分割任务，Couprie 等人 [ 27 ] 提出了第一个基于深度学习的多模态融合模型。在这项工作中，作者通过连接操作融合多模态数据，其中 RGB 图像和深度图像沿通道轴连接在一起。

类似地，刘等人[109] 将 RGB 图像和深度图像连接在一起。与由两个分别处理 RGB 数据和深度数据的独立子网络组成的双流网络相比，作者利用深度信息辅助颜色信息来检测显著物体，并且计算成本更低。

【优缺点】：

优点：（1）它可以最大限度地保留每种模态的原始信息；（2）网络的单主干设计最大限度地降低了计算成本。然而，随着模态数量的增加，合并输入数据的维数将非常高。因此，通常这种融合仅用于融合来自两种模态的数据。
缺点：原始数据级组合仅适用于同质数据。对于异构数据，例如文本数据+RGB 图像，则需要进行数据预处理，例如对文本数据进行词嵌入。

原始数据级融合的可视化效果如图7 (a)所示。图8介绍了图7(a)中的合并操作，该操作通常涉及逐元素的加法或乘法、连接和叉积。

在这里插入图片描述

2.2 分层特征融合

由于 DNN 具有强大的分层表示学习能力，与原始数据级融合不同，许多工作使用精心设计的网络架构，迫使模型融合不同级别的多模态分层特征。这种融合方法的动机是，融合和聚合来自不同抽象级别的数据可以更好地利用从分层深度网络中提取的多级特征，从而可以共同提高模型的性能。

许多应用采用了这种融合方法。例如，[ 69 ] 和 [ 171 ] 并没有简单地将深度图像（或热图像）与 RGB 图像堆叠以形成四通道输入数据。作者提出了一种策略，通过逐元素求和来融合不同级别的两种模态的分层特征。在该方法中，RGB 子网络可以被视为特征提取的骨干。从另一个子网络（如热编码器和深度图像编码器）获得的分层特征将通过逐元素求和的方式与 RGB 特征融合。

与上述使用 RGB 分支作为特征提取主干的工作不同，Hu 等人 [ 64 ] 构建了一个新的融合子网络作为主干。具有相同分辨率的 RGB 和深度分层特征将通过逐元素求和的方式与融合分支的相应特征融合。在基于分层融合的网络中，不同层次的特征连接可以帮助模型捕捉跨模态关系。

这种融合方法还有其他一些变体，例如在医学领域，Venugopalan 等人 [179] 提出了一种简单的特征融合网络，通过连接编码器的最后几层来整合三种模态的数据。

Hong 等人 [ 179 ] 提出了一种简单的特征融合网络，通过连接编码器的最后几层来整合三种模态的数据。

[ 59 ] 提出了一种基于编码器-解码器的高光谱和 LiDAR 数据融合模型，其中融合发生在网络的解码器中。

在参考图像分割任务中，[ 97 ] 和 [ 65 ] 提出了融合模型，其中 RGB 图像和参考表达式被输入到卷积神经网络或循环神经网络中，以独立生成其特征表示，然后在解码阶段融合这些特征。

类似地，在场景理解任务中，[ 173 ] 和 [ 226 ] 分层融合来自不同模态的特征（例如，低级、中级和高级特征）以提高模型性能，而 [ 170]]将高级特征融合在一起。

【优缺点】：

优点：（1）融合架构的灵活性 - 人们可以决定融合发生的位置以及针对特定任务融合多少个分层特征，（2）易于与注意机制结合 - 同一级别的多模态分层特征之间的连接可以通过注意机制进行升级，这将在第3节中介绍。这使得研究人员能够利用不同模态之间的关系来增强融合模型的性能。
缺点：当模态数量相对较高时，不同模态的各个子网络需要大量的计算资源。因此，这种融合方法通常用于两种或三种模态的融合。分层特征融合的可视化如图7 (b) 所示。

2.3 决策级融合

与上述在架构设计上提供很大灵活性的分层特征融合策略不同，决策级融合相对简单，灵活性较差，但易于实现。该方法中的融合操作固定在各个子网络的解码器或分类器的末尾，这意味着跨模态信息在解码器的最后一层或倒数第二层交换。它对多模态交互的可解释性有限。对于分类任务，最终融合可以通过使用经典的多数投票或从多层感知器学习到的权重来完成。对于回归任务，通常训练线性回归器来融合各个模态的预测。

例如，Zhang 等人 [ 234 ] 通过沿通道轴连接两个独立解码器的输出来集成它们。

同样，Aygün 等人 [ 9 ] 使用决策级融合来解决脑肿瘤分割问题

【优缺点】：

优点：（1）它可以用来探索每种模态对最终决策的相对贡献权重；（2）易于判断每种模态的预测结果是否正确；（3）网络易于设计和实现。
缺点：（1）整个网络的性能可能受到一种模态的限制（例如，一种模态的分支无法正常工作并产生错误的预测，严重影响最终预测）；（2）在多模态信息融合方面灵活性较低。决策级融合的可视化效果如图7 © 所示。

基于注意力机制的融合

人们提出了许多注意力机制的变体，例如计算机视觉( CV ) 领域的通道注意力和空间注意力，例如 [ 233 , 239 ]，以及自然语言处理 (NLP) 领域的自注意力和多头注意力。

近年来，注意力机制已成为多模态数据融合任务的主要工具之一。基于注意力机制的多模态模型可以分为三类：

3.1 模态内自注意力

总体结构如图10 (a)所示。该方法的动机是强制模型利用模态内关系。注意操作可以基于点积 [ 85 ]，也可以基于加法门 [ 134 ]，等等。这意味着对于给定的模态，注意操作仅考虑来自该特定模态的数据。在 Transformer 模型 [ 177 ] 的背景下，用于注意计算的键 (K)、查询 (Q) 和值 (V) 张量是相同的，并且都来自相同的模态或序列，如图10 ©左侧所示。这确保了注意过程只专注于每个单一模态的数据，从而可以对模态内关系进行有重点且不带偏见的分析。

在这里插入图片描述

不同注意力机制和融合架构的说明。（a）展示了关注模态内关系的注意力机制。（b）展示了关注模态间关系的注意力机制。（c）展示了基于 Transformer 的架构，包括模态内自注意力和模态间交叉注意力。

【优缺点】：模态内自注意力机制具有诸多优势，包括灵活性、易于实现以及相对较低的计算成本，这主要是因为它规避了辨别不同模态之间差异和利用其相关性所需的复杂分析。然而，由于该方法仅关注模态内关系，可能会忽略不同模态之间能够提升模型性能的宝贵互补性。

3.2 跨模态交叉注意力

其总体结构如图10 (b)所示。作为模态内自注意力机制的补充，模态间交叉注意力机制侧重于挖掘不同模态之间的关系。注意力分数是使用多模态数据计算的。这意味着每个注意力操作都会考虑来自多个模态的数据。在 Transformer 模型 [ 177 ] 的背景下，注意力计算中使用的查询 (Q) 张量以及键 (K) 和值 (V) 张量来自两个或多个不同的模态或序列，如图10 ©右侧所示。由于某些模态流比其他模态流包含更多当前任务的信息，因此获得的注意力权重可以仅应用于信息量更大的模态。它将为一个模态生成一个以另一个模态为条件的注意力池特征。

例如，Zhang 等人 [ 228 ] 应用点积注意力机制来探索文本和图像特征之间的跨模态关系。

Mohla 等人 [ 126 ] 提出了一种基于空间注意和通道注意的多模态模型。除了模态内注意机制之外，作者还采用了模态间注意机制来利用 LiDAR 模态和 HSI 模态之间的跨模态关系。它可以被视为 LiDAR 引导的 HSI 注意网络。

同样地，Hu 等人 [ 65 ] 提出了一个双向模态间交叉注意模块，其中作者创建了一个视觉引导的语言注意模块和一个语言引导的视觉注意模块来利用视觉模态和语言模态之间的跨模态关系。

不同的是，在某些多模态组合中，很难判断其中哪一种相对更具信息量。因此，许多工作将注意力得分应用于所有模态，而不是仅应用于信息量最大的模态。

例如，Wu 等人 [ 200 ] 提出了一种基于共同注意的多模态假新闻检测模型。在该模型中，每次融合操作之前，它们都会利用共同注意机制，增强每个模态与其他模态的关联。堆叠的多个共同注意层迫使模型融合多模态特征，并学习它们之间的相互依赖关系。

类似地，Sun 等人 [ 169] 提出了一种跨模态交叉注意机制，专门用于学习音频和文本模态之间的关联，以交叉的方式计算音频和文本的 Query 和 Key 的点积。交叉注意模块引导一种模态关注另一种模态，以反映学习到的模态间关联的方式更新特征，从而丰富对模态间潜在关系的理解。

此外，Lu 等 [ 111 ] 开发了一种独特的交叉注意机制，整合了通道注意和特征交叉机制。这种方法促进了不同模态之间的动态信息交互，使模型能够强调更具代表性的特征。

后来，Yoon 等 [ 215 ] 提出了一种复杂的多模态编码器，利用交叉注意将视觉和听觉表征结合起来。这种方法深入理解了模态之间交织的潜在信息，提供了多模态数据的整体视图和丰富的表示。

【优缺点】：跨模态交叉注意力机制虽然功能强大，但在实际应用中仍面临诸多挑战。跨模态交叉注意力机制旨在管理和利用不同模态之间的关系，这本身就会带来计算和结构方面的复杂性。随着模态数量的增加，这种复杂性会变得尤为明显，需要更多的计算资源和管理更加复杂。同时，跨模态交叉注意力机制的有效性与其所处理模态的质量和相关性密切相关。因此，质量低劣或未对齐的模态会严重阻碍注意力机制的最佳性能，导致结果不佳。

上文提到的模态内自注意力和模态间交叉注意力可以灵活地应用于深度神经网络 (DNN)。它们可以协同工作，也可以与其他类型的多模态融合方法混合使用。

例如，Gao 等人 [ 47 ] 提出了一种基于模态内/模态间注意力模块的模型来解决 VQA 任务，其中模态内注意力增强了单个模态的特征，而模态间注意力则捕捉了不同模态之间的交互。

除此之外，还有许多创新性的自注意力研究工作，旨在探索跨模态关系并降低计算成本。通过将不同模态的表示串联到潜在空间中，并将自注意力应用于这些新的表示，模型可以有效地利用跨模态关系。

例如，Ye 等人 [ 211 ] 提出的注意力机制自适应地将焦点转移到查询表达式中的显著词汇和输入图像的重要部分。

然而，传统的注意力机制尽管在识别局部模式和关系方面非常有效，但在识别数据中的长距离依赖关系方面却存在局限性。这归因于其感受野的局部性，这可能会妨碍模型吸收来自输入中较远部分信息的能力。为了弥补这一局限性，非局部注意力的概念[ 186 ]应运而生。这种创新方法旨在思考整个输入空间中的关系，从而使模型能够有效地理解和利用长距离依赖关系。

袁等人[ 221 ]的研究是非局部注意力的一个显著实现，他们利用基于非局部注意力的网络来融合同质多模态图像数据，例如MRI和PET的融合，或红外图像和可见光图像的融合。与局部注意力机制不同，非局部注意力机制超越了邻近度的限制，提供了输入空间的整体视角，使其成为多模态数据融合技术进步的宝贵资产。

3.3 基于 Transformer 的方法

基于非局部注意力机制的 Transformer 架构 [ 177 ] 已成为一种突破性的解决方案。Transformer 的核心是自注意力机制，它允许每个输出元素同时考虑所有输入序列（或图像块嵌入），有效地捕获局部和长距离依赖关系，而不受传统卷积层或循环层的限制。这种全局视角与架构的可扩展性相结合，使得 Transformer 特别适合于那些受益于理解数据间复杂关系的任务。基于 Transformer 的大型预训练模型在许多多模态数据融合任务中占据主导地位，例如 interBERT [ 101 ] 和 videoBERT [ 168 ]。

Transformer回顾：Transformer 模型最早由 [ 177 ] 提出。它结合了编码器-解码器架构和注意力机制 [ 70 ]，如图10 ©所示。编码器中存在堆叠的自注意力模块，其中缩放点积注意力机制的输入Q,K,V来自同一张量，用于探索输入的模态内关系。解码器中，有堆叠的自注意力模块和交叉注意力模块，其中Q,K,V来自不同的模态，例如Q来自第二种模态，而K,V来自第一种模态。这些自注意力和交叉注意力模块有助于模型有效地捕捉多模态内部和之间的内部关系。

目前，基于 Transformer 的大型预训练模型可以分为两类：

（1）单 Transformer 架构：在这种架构中，来自不同模态的输入数据将由单个编码器或多个堆叠编码器联合处理，例如 VideoBERT[ 168 ]、HERO[ 94 ]、NExT-GPT[ 199 ]、ClipBERT[ 90 ] 和 DeCEMBERT[ 174 ]；

（2）多 Transformer 架构：在这种架构中，来自不同模态的输入数据将由特定于模态的 Transformer 分别编码，然后进行联合建模，例如 X-llm[ 22 ]、UniVL[ 113 ] 和 ActBERT[ 244 ]。

【优缺点】：大型预训练模型能够学习多模态的综合表示，并在下游任务中取得有竞争力的表现。然而，目前大多数大型预训练模型都集中在视觉语言领域。对于其他类型的模态，大型预训练模型的资源仍然有限。因此，一些工作针对没有任何预训练的基于 Transformer 的模型可用的特定任务构建了自己的基于 Transformer 的模型。例如，[ 203 ] 中的工作利用 MRI 和声学信号之间的相关性，通过使用基于跨模态 Transformer 的架构来完成声道变形任务。类似地，Hsu 等人 [ 60 ] 提出了一种多模态 Transformer，通过自注意机制捕捉多模态数据（例如文本、图像、数值数据和分类数据）之间的长程依赖关系。

基于图神经网络的融合

到目前为止，我们已经回顾了基于编码器-解码器的融合和基于注意力机制的融合。这些方法的模型在从欧几里得空间的数据中捕捉隐藏模式方面取得了巨大成功。然而，它们难以处理非欧几里得领域生成的数据，这些数据以图的形式表示，且对象之间存在复杂的关系和相互依赖关系 [ 241 ]。
近年来，基于 GNN 的应用越来越多地解决与图数据相关的多模态问题，例如 VQA 任务[ 77、95、100、129、190、214、218 ] 、图像字幕任务[ 42、182、182、208、209、210 ] 、跨模态检索任务[ 30、204、217 ] 、RGB深度场景分类任务[222]、多模态推荐任务[ 193、194 ] 、基于神经影像的疾病分类任务[ 158 ] 、使用自然语言描述的 3D 对象定位[21 ]以及根据查询语句在3D 场景中进行对象分割[ 66 ] 。图神经网络 ( GNN) 已成为处理和集成图结构数据的有力工具，尤其是在模态本质上具有关系或互连性的情况下。在 GNN 中，图卷积网络( GCN ) 脱颖而出，它利用适用于图数据的卷积层来聚合来自相邻节点的信息，从而促进跨模态的空间局部化特征融合。另一个值得注意的子类型是图注意力网络( GAT )，它将注意力机制引入图结构。通过动态权衡相邻节点的重要性，GAT 可以更精细地关注图中的相关部分，通过捕捉不同数据源之间的复杂模式和关系来增强融合过程。

将 GNN 应用于多模态数据融合的一般策略可分为两类：

4.1 个体模态的表征学习

可视化效果如图11 (a)所示。在该策略中，GNN 仅用于从图数据中提取新的表示，这意味着由非图结构化数据组成的子分支将不使用 GNN 进行特征提取。然后，将从不同模态学习到的表示进行集成。
在这里插入图片描述

基于 GNN 的多模态数据融合和集成的图示。（a）显示了基于 GNN 的多模态数据融合的一般模式。（b）显示了多模态数据的集成如何在图形构建过程中发生。

例如，Lotfi 等人 [ 110 ] 提出了一种用于检测谣言对话的多模态数据融合方法，其中作者使用 GCN 独立建模用户图和回复树。然后，将从用户图和回复树获得的特征连接起来并发送到完全连接层以检测谣言对话。与上述仅使用简单的连接操作融合来自不同模态的 GCN 嵌入的工作不同，
Qian 等人 [ 142 ] 采用模态间注意机制来利用视觉特征和文本特征之间的关系。在本文中，作者分别使用 GCN 和 VGG-19 [ 162 ] 获取每篇帖子的文本表示和视觉表示。在特征提取过程中，作者使用文本引导的视觉注意力机制来加强文本特征和视觉特征之间的交互，从而确定哪个视觉特征值得更多关注。除了基于 GCN 的方法之外，还有许多其他类型的基于 GNN 的方法。
Yang 等人 [ 208 ] 引入了一个 GNN 模型，该模型利用多头注意力机制有效地嵌入场景图，从而提高了图像字幕任务的性能。该方法侧重于捕捉场景图中的复杂关系，以生成更准确、与上下文相关的图像字幕。
同样，Tao 等人 [ 175 ] 和 Jia 等人 [ 75 ] 的研究引入了针对个性化推荐量身定制的多模态 GAT。这些研究在单个单模态图内进行信息传播，并使用注意力机制来识别不同模态对用户偏好的不同重要性分数。
GNN 不仅适用于语言数据和视觉数据，而且在生物医学数据和化学数据上也取得了成功。例如，Wang 等人 [ 185 ] 提出了用于生物医学分类任务的多组学 GCN，该模型利用 GCN 分别从三种模态（即 mRNA 表达数据、DNA 甲基化数据和 microRNA 表达数据）中提取独立特征。然后，他们基于这些特征创建相关矩阵，以利用潜在的跨模态相关性来提高学习性能。

4.2 融合数据的表征学习

可视化结果如图11 (b)所示。该融合策略的关键操作是图构建。一般而言，与之前的策略（可以有多个子网络或子模态分支）不同，该策略在表征学习过程之前，在图构建过程中融合了多模态数据。

例如，Hu 等人 [ 61 ] 提出了一种基于深度图卷积网络的多模态融合模型，用于对话中的情绪识别。该文章的关键贡献在于为话语创建了声学节点、文本节点和视觉节点。然后，图中连接了任意两个相同模态的节点。它们之间的边称为模态内边。此外，每个节点都与对应相同话语但来自不同模态的节点相连。连接它们的边称为模态间边。此操作迫使模型利用模态内和模态间关系。然后，采用堆叠 GCN 来生成高级节点表征。最后，这些新的表示将被连接起来并通过完全连接层发送以形成预测。
同样，Wang 等人 [ 188 ] 提出了一种知识驱动的多模态 GCN 来检测假新闻。该应用涉及三种模态：文本、图像和知识概念。文本中的单词被视为图节点，单词之间的关系被视为边。与 [ 142 ] 中使用 VGG-19 提取高级视觉表示并将其与文本表示连接起来的工作不同，这项工作利用 YOLOv3 [ 149 ] 预训练模型来检测图像中的语义对象。然后，它将图像中检测到的对象的文本标签视为文本内容中出现的单词。因此，这些图像的文本标签用于图的构建。此操作强制不同模态之间发生交互。然后，应用 GCN 根据这些节点的邻域属性为这些节点生成嵌入向量。
除了基于 GCN 的方法外，还有许多方法采用 GAT 来应对各种挑战。例如，Jiang 等人[ 93] 介绍了一种基于 GAT 的网络，旨在执行跨模态特征互补和多模态情绪分类任务。作者最初使用三个单模态编码器对单模态特征进行编码。随后，部署基于 GAT 的跨模态特征互补模块来收集长距离模态内上下文信息和模态间交互信息。该方法擅长保持多模态特征的一致性和多样性，精确定位必要的模态内上下文信息和模态间交互信息，并减轻多模态数据中普遍存在的异构性差距。
同样，Ding 等人 [ 33 ] 提出了一种基于 GAT 的融合模型。该模型将多模态 GAT 与时间卷积网络相结合，以辨别多模态时间序列中固有的时空相关性。作者利用各种注意机制（包括自注意和交叉注意）来显式地模拟不同模态之间的相关性，从而深入了解多模态数据中的相互作用和关系。

【优缺点】：

与其他融合方法相比，基于 GNN 的融合模型的优势包括：（1）能够通过深度学习技术直接处理图结构数据，而无需将数据投影到欧几里得空间；（2）能够直观地利用图结构数据中节点之间的关系，并且可以扩展到利用多模态问题中的模态内和模态间关系。
基于 GNN 的融合模型的缺点是，图的构建过程通常高度依赖于对特定输入数据和任务特征的先验知识。这既耗时又耗空间，而且不易推广。到目前为止，我们已经回顾了基于编码器-解码器的融合、基于注意力机制的融合和基于 GNN 的融合。它们都可以利用不同模态之间的关系来提高多模态网络的性能。然而，这种融合方法难以处理缺失数据问题。

基于生成神经网络的融合

GenNN 是深度学习领域的基础支柱，特别是对于以数据生成、重建和建模为中心的任务。这些网络旨在捕获和复制数据的底层分布，使其对于从图像合成到时间序列预测的无数应用具有无价的价值。基于 GenNN 的网络通常包含一系列架构，包括但不限于生成对抗网络（GAN）、VAE、基于流量和基于扩散的模型。
GenNN 的主要目标是通过直接对这些分布进行建模或学习将更简单的分布转换为更复杂的分布来生成与现实世界分布密切相关的数据。它们的多功能性和生成高质量数据的能力使其在单模态和多模态任务中得到广泛采用，解决了数据插补、增强和融合等挑战。鉴于其生成能力，生成模型在真实数据稀缺、嘈杂或不完整的场景中发挥了重要作用，提供了一种强大的机制来补充和增强现有数据集。

它们背后的直觉是，模型可以根据其他模态合成缺失的模态。总体思路如图 12 所示。
在这里插入图片描述
基于GenNN的模型可用于解决多模态任务的缺失数据问题，也可以作为正则化器来利用多模态之间的语义相关性。然而，在利用多种模态之间的模态内和模态间关系来提高模型性能时，基于GenNN的网络的架构灵活性相对较低，需要大量的训练技能。在这方面，注意力机制在科学界引起了更多的关注。由于注意力机制具有很强的揭示不同模态之间内部关系和相互关系的能力，因此在多模态数据融合中得到了广泛的应用。

其他基于约束的方法

我们上面讨论的大多数融合策略都基于联合表示，这意味着输入的多模态数据将被映射到一个共同的潜在空间。模型将学习输入数据的联合表示。

然而，还有另一种方法，称为基于协调表示的框架，它在特定约束条件下学习每个模态的独立但协调的表示。

如图13 (a) 所示，协调表示架构分别处理各个模态，但对它们强制执行某些相似性约束，以将它们纳入协调空间 [ 15 ]。可以使用典型相关分析( CCA ) 约束、余弦距离约束、L2 距离约束或其他约束 [ 26 , 57 ]比较每种模态的学习到的表示。这些相似性约束将作为损失函数中的正则化项。
在这里插入图片描述

（a）展示了具有某些约束的协调表示框架的可视化，以保持学习到的表示在语义上一致。（b）展示了关注模态间和模态内关系的张量融合机制。

除了基于正则化的方法外，Zadeh 等人 [ 224 ] 提出了第一个基于张量的融合网络。它主要考虑了模态间和模态内的关系。如图13 (b) 所示，该方法将每个模态扩展 1 维，然后计算不同模态的笛卡尔积。以双模态为例，作者在获取特征后进行外积（张量积）。可以看出，扩展后获得了两种模态之间的特征相关性，并且保留了每种特定模态的信息。对于三模态，该方法不仅可以获得双模态和三模态组合的特征相关性，还可以保留每种特定模态的特征。然而，随着多模态数量的增加，特征维数会迅速爆炸式增长。此外，当参数数量过大时，很容易增加过拟合的风险。此外，还有一些此类工作的变体，例如 [ 108 ]。在这项工作中，作者提出了一种低秩多模态融合方法，该方法使用低秩张量进行多模态融合以提高效率。

与之不同，Wang 等人 [ 187 ] 提出了一个通道交换网络，它可以动态地交换不同模态子网络中的通道。具体而言，通道交换过程由训练期间批量归一化缩放因子的大小衡量的单个通道重要性自行引导。该方法无需参数。然而，该模型仅适用于同质数据。异构多模态数据的性能有限。

【优缺点】：这些基于协调表征的融合方法的主要缺点之一是，它们仅适用于输入模态为两到三种的情况。当模态数量超过三种时，网络架构可能过于复杂，性能无法保证。

为了进行更细致的比较，以辨别它们在不同任务中表现的细微差别，我们编制了表3
在这里插入图片描述

挑战和未来方向

基于深度学习的多模态数据融合在近十年得到了快速发展。然而，仍然存在一些研究空白：

缺失的模态挑战

在实际场景中，模态缺失问题分为两类：模态噪声问题和模态缺失问题。模态缺失问题是指多模态样本中至少缺少一种模态。模态噪声问题是指至少有一种模态的数据存在噪声或错位。大多数 SOTA 方法都基于数据集中不存在数据缺失问题的假设。许多基于此假设的 SOTA 深度数据融合模型仅在理想条件下才能正常工作。

未来，

（1）创建自适应融合模型，使其能够学习不同模态对最终任务的相对重要性，该模型应该能够自动消除信息量较少的模态对任务的影响，反之亦然。

（2）开发完全分布式的深度多模态融合。在集中式设置中，局部特征被传输或中继到融合中心，在那里做出最终决策。这样设备或传感器可能会动态地进入或离开网络，导致网络规模和拓扑结构发生不可预测的变化。传感器或设备可能会由于节点损坏或电池耗尽而永久消失。此外，由于带宽限制和能量限制，每种模态的设备与融合中心之间的连接/通信很少是完美的[ 18,231 ] 。这促使我们考虑一个完全去中心化的、没有融合中心的深度多模态融合框架，其中所有模态都会不断更新并与相邻模态交换局部决策/特征，以达成共识。

缺乏数据

多模态数据融合是人工智能的一个新兴研究领域。目前公开的多模态数据集仍然有限。众所周知，基于深度学习的模型的性能通常取决于训练过程中使用的样本数量。高质量、大规模的数据集将极大地帮助模型学习到对所观察到的对象或活动的准确而全面的表征。因此，创建更大、更高质量的多模态数据集是推动该领域发展的关键任务之一。

缺乏大型预训练模型

大型预训练模型能够学习更全面的多模态表征。借助迁移学习，训练良好的大型预训练模型在下游任务上的表现甚至比专门为特定任务设计的模型更具竞争力。然而，目前现有的大型预训练多模态模型仅专注于计算机视觉和自然语言处理（NLP）的交叉学科领域。未来，为其他交叉学科领域创建大型预训练多模态模型可能是多模态数据融合的一个潜在方向。

模型的可解释性

尽管数据驱动方法在不同学科取得了令人难以置信的成功，但深度学习模型也存在一些缺点，限制了它们的适用性。例如，它通常需要大量的训练数据和密集的计算资源来学习理想的映射，而这在通信降级或能源受限的环境中几乎无法实现。此外，DNN 通常被设计成黑匣子，无法解释如何理解和表征预测结果和置信区间

结论

在本综述中，我们介绍了深度多模态数据融合的背景并回顾了当代模型。我们提出了一种新颖的细粒度分类法，将SOTA多模态数据融合方法分为五类：编码器-解码器方法、注意力机制方法、GNN方法、GenNN方法和其他基于约束的方法。此外，本文还涵盖了与多模态融合相关的各种应用和数据集。最后，我们探讨了深度多模态数据融合的未来研究方向。