多模态对齐和融合综述

ZZZ___bj

已于 2025-02-17 19:57:46 修改

阅读量2.3k

点赞数 26

分类专栏：论文对话情感识别文章标签：对话情感识别情感识别

于 2025-02-17 19:56:17 首次发布

本文链接：https://blog.csdn.net/ZZZ___bj/article/details/145674896

版权

论文同时被 2 个专栏收录

40 篇文章

订阅专栏

对话情感识别

25 篇文章

订阅专栏

多模态对齐和融合综述

1. 多模态对齐
2. 多模态融合
3. 总结

1. 多模态对齐

多模态对齐包括在两种或多个不同模态之间建立语义关系。它在网络对齐[110]、图像融合[50]和多模态学习[111]中的研究。

为了将不同的模式与相同的语义表示对齐，我们衡量了这些模式之间的相似性，并考虑了潜在的长期依赖性和歧义。简单地说，目标是构建一个映射，从一个模态对齐的表示到共享相同语义的另一种模态中的相应表示。根据[1]，对齐可以分为两种类型：隐式和显式。显式对齐通常涉及到使用相似性矩阵来直接度量相似性，而隐式对齐通常是诸如翻译或预测等任务的中间步骤。

1.1 显示对齐

显式对齐有早期的基础，通常依赖于统计方法，如动态时间扭曲（DTW）[112]、[113]和典型相关分析（CCA）[114]。DTW通过时间扭曲找到最佳匹配来度量两个序列之间的相似性，这包括插入帧来对齐序列[112]。然而，最初的DTW公式需要一个预定义的相似度度量，因此它通过哈罗德·霍特林在1936年[114]引入的典型相关分析（CCA）进行了扩展，通过线性变换将两个不同的空间投射到一个公共空间中。CCA的目标是通过优化投影来使这两个空间之间的相关性最大化。CCA促进了对齐（通过DTW）和以无监督的方式进行模态之间映射的联合学习，就像在视频-文本和视频-音频对齐等多模态应用中所看到的那样。图2可视化了CCA方法。具体地说，CCA的目标函数可以表示为：
在这里插入图片描述

在这里插入图片描述

然而，CCA只能捕获两种模式之间的线性关系，这限制了它在涉及非线性关系的复杂场景中的适用性。为了解决这一限制，我们引入了核规范相关分析（KCCA），利用核方法[115]，[116]将原始数据映射到高维特征空间来处理非线性依赖关系。多标签KCCA和深度规范相关分析（DCCA）等扩展进一步改进了原来的CCA方法[115]、[116]、[117]、[118]、[119]。

此外，Verma和Jawahar证明了使用支持向量机（SVMs）[120]可以实现多模态检索。此外，诸如图像对齐的特征模式之间的线性映射等方法已经发展出来，通过复杂的空间变换[121]来解决多模态对齐问题。

1.2 隐式对齐

隐式对齐是指在主要任务的执行过程中被用作中间步骤的方法，通常以一种隐藏的方式使用。这些方法不是直接调整来自不同模式的数据，而是通过学习一个共享的潜在空间来提高主要任务的性能。隐式对齐技术可以大致分为两种类型：基于图模型的方法和基于神经网络的方法。

1.2.1 基于图的方法

图结构的集成允许更好地建模不同模态之间的复杂关系，使更准确和有效地处理多模态数据。这种方法通常用于图像与文本对齐或图像与信号对齐。例如，某些模型通过对齐图表示来实现少样本的上下文模仿学习，允许机器人在没有事先训练[122]的情况下对新样本执行任务。图对齐算法基于显式进化模型，在识别同源顶点和解析谬误方面显示了鲁棒性能，在特定场景[123]中优于替代方案。图3说明了如何在对齐中使用图。
在这里插入图片描述
这些任务中的一个重大挑战是跨模式对齐隐式信息，其中多模态信号并不总是彼此直接对应。基于图的模型已经证明，通过表示为图，其中节点表示数据元素（例如，单词、对象或框架），而边表示它们之间的关系（例如，语义、空间或时间）。

最近的研究探索了利用图结构的多模态对齐的各个方面。例如，Tang等人[124]引入了一种基于图的多模态顺序嵌入方法来改进手语翻译。通过将多模态数据嵌入到一个统一的图结构中，他们的模型可以更好地捕捉复杂的关系。

另一个应用是情绪分析，其中隐式多模态对齐起着至关重要的作用。Yang等人[125]提出了一种基于多模态图的对齐方法（MGAM），联合建模显式信息（例如，对象、情感）和隐式多模态交互（例如，图像-文本关系）。

在具体化人工智能领域，Song等人[126]探讨了如何构建场景驱动的知识图谱来建模复杂多模态任务中的内隐关系。他们的工作将文本和视觉信息集成到一个知识图谱中，其中多模态语义通过基于图的推理对齐。调整内隐线索，如场景中物体之间的空间和时间关系，对于改善具身人工智能系统的决策和互动至关重要。

对于命名实体识别（NER），Zhang等人[127]提出了一种基于标记的图的方法，该方法从与文本相关的图像中包含隐式视觉信息。这种方法利用视觉领域中的空间关系来改进对命名实体的识别，当使用孤立的文本数据时，命名实体通常是模糊的。

在图像字幕和视觉问题回答（VQA）等任务中，场景图也起着至关重要的作用。Xiong等人[128]介绍了一个基于场景图的模型，用于跨模式的语义对齐。通过将对象及其关系表示为图中的节点和边，该模型改进了视觉和文本模式的对齐。

总之，基于图的方法为表示不同的数据类型提供了一个强大的框架，并在多模态对齐方面具有巨大的潜力。然而，这种灵活性也带来了重大挑战。

图结构的稀疏性和动态性使优化变得复杂化。与矩阵或向量不同，图具有不规则的非结构化连接，导致高计算复杂度和内存约束。即使是在高级硬件平台上，这些问题也仍然存在。此外，图神经网络（gnn）尤其是如此对超参数敏感。与网络架构、图采样和损失函数优化相关的选择直接影响性能，增加了GNN设计和实际部署的难度。

1.2.2 基于神经网络的方法

近年来，基于神经网络的方法已经成为解决隐式对齐问题的主要方法。特别是在像翻译这样的任务中，将对齐作为一个潜在的中间步骤通常会产生更好的结果。常见的神经网络方法包括编码器-解码器模型和跨模态检索。当没有隐式对齐的翻译被执行时，它会给编码器带来更重的负担，要求它将整个图像、句子或视频总结为一个向量表示。

一个流行的解决方案是使用注意力机制，使解码器能够专注于源实例的特定子组件。这与传统的将所有源实例的子组件编码在一起的编码器-解码器模型形成了对比。注意力模块指导解码器更多地关注被翻译的源的特定子组件——例如图像的区域、句子中的单词、音频片段、视频中的帧或指令的部分。例如，在图像标题生成中，注意机制允许解码器（通常是递归神经网络）在生成每个单词时关注图像的特定部分，而不是一次对整个图像进行编码[129]。以前的工作已经通过设计特定于模态的嵌入器和预测器来与从输入到输出的预训练模型进行接口来实现这一点。

生成对抗网络（GANs）由于能够学习高维数据空间[130]、[131]、[132]、[133]、[134]之间的复杂映射，已成功地应用于多模态数据的合成。例如，在MRI模式中，使用一个统一的框架，其中单个生成器学习跨模式的映射可以提高跨多个数据类型[130]的对齐精度。

另一种深度生成方法，C-Flow，在3D点云重建等任务中利用规范化流进行多模态对齐，允许对生成过程[135]进行更细粒度的控制。自动编码器及其变体，如变分自动编码器（VAEs），也被用来学习捕获潜在语义结构的潜在表示。这种方法在组合表示学习中已被证明是有效的，其中VAEs通过将图像和文本模式映射到一个共享的潜在空间[136]来帮助对齐它们。类似地，使用交叉模态量化的多模态图像-文本对生成演示了神经网络如何通过学习量化的联合表示[137]来对齐文本和视觉数据。

此外，半监督对齐方法，如扩散传输对齐（DTA），利用少量的先验知识将多模态数据域与不同但相关的结构对齐[138]。这种方法在只有部分数据对齐是可能的情况下特别有用，因为它依赖于域之间的几何相似性。

在最近的发展中，结合辛克霍恩度量与注意力机制的Att-辛克霍恩方法，通过解决不同模态概率分布之间的最优传输问题，证明了多模态特征对齐的精度。

总之，显式和隐式对齐技术在多模态机器学习领域中都是至关重要的。虽然显式方法为度量相似性和建立对应关系提供了一个清晰的框架，但隐式方法通常更灵活，可以适应更广泛的场景，特别是那些涉及复杂或模糊的数据关系的场景。未来的研究可能会继续探索混合方法，结合这两种对齐策略的优势，以解决多模态数据[110]，[111]，[139]所带来的各种挑战。

2. 多模态融合

多模态数据涉及各种类型信息的集成，如图像、文本和音频，这些信息可以通过机器学习模型进行处理，以提高许多任务[1]、[53]、[140]、[141]、[142]、[143]的性能。通过组合不同类型的信息，多模态融合利用了每种模态的优势，同时解决了依赖于单一类型的数据[1]、[53]、[144]可能产生的弱点或差距。例如，每种模态对最终预测的贡献可能不同，在任何给定时间，其中一种可能比其他模态信息更多或噪声更小。

融合方法是有效结合来自不同模态的信息的关键。在早期的方法中，图像和文本通常是单独处理的，这两种数据类型之间只有基本的集成。像CLIP [13]这样的架构使用了一个双编码器框架，在该框架中，视觉和文本信息被独立编码，它们的交互通过简单的操作来处理，通常涉及点积计算[145]，[146]。因此，这两种模式的融合在整个模型架构中扮演了相对较小的角色，这是由编码器本身主导的。虽然这种有限的集成策略对于基于检索的任务[147]，[148]是有效的，但对于更复杂的多模态挑战，它不需要深入理解和模式[149]，[150]之间的交互。

如果可以仅仅通过独立训练每个模态的专门编码器，然后进行表面集成[4]，[151]来实现鲁棒性能，那么对深度多模态学习的需求将是值得怀疑的。然而，经验证据表明，对于需要细致理解的任务——如视觉问题回答和视觉推理——这两种模式的更复杂和更深入的融合对于充分捕捉视觉感知和语言处理[152]之间的相互关系是至关重要的。

传统上，融合方法是根据融合发生的数据处理管道中的阶段进行分类的。早期融合在特征层面整合数据，晚期融合在决策层面整合数据，混合融合结合了[1]和[53]的两个方面。

早期融合包括在特征提取阶段[56]合并来自不同模态的数据，允许早期捕获模态之间的交互。正如Zhao等人[93]所解释的那样，整合发生在特征级别。相比之下，晚期融合在决策阶段结合了单个模态模型的输出，这在预测过程中缺失一个或多个模态时是有利的，正如Morvant等人[153]所证明的那样。混合融合整合了早期和晚期融合的两个方面，Zhao等人探索了其在深度学习环境[93]中的实现。

随着科技和融合技术的发展，区分早期、晚期和混合核聚变变得越来越复杂。高级方法通常超越传统的基于时间的类别，在特征和决策级别上同时操作，这是对严格分类的挑战。

为了解决这一复杂性，我们基于当前融合技术的核心特征，提出了一个新的分类框架，为现代方法提供了更准确的表示，并指导了未来的进展。值得注意的是，虽然许多基于注意力的方法可以适合编码器-解码器或仅编码器框架，但我们将它们单独分类，因为它们最近的重大发展和独特的创新，这些没有被传统类别充分捕获。

2.1 编解码器融合

编码器-解码器融合体系结构涉及到一个从输入数据中捕获基本特征的编码器，并将它们压缩成一个紧凑的形式，而解码器重构来自这个压缩表示[26]的输出。

在这种体系结构中，系统主要由两个主要组件组成：编码器和解码器。该编码器通常作为一个高级特征提取器，将输入数据转换为一个具有重要特征[26]，[37]的潜在空间。换句话说，编码过程在减少冗余的同时保留了重要的语义信息。一旦编码步骤完成，解码器将根据潜在表示[26]，[31]生成相应的“重构”输出。在语义分割等任务中，解码器的输出通常是与输入的大小相匹配的语义标签映射。

编码器-解码器融合通常采取三种形式： (1)数据级融合，其中来自不同模式的原始数据被连接并输入共享编码器；(2)特征级融合，特征从每个模态分别提取，可能包括中间层，然后在输入解码器之前组合；(3)模型级融合，在其中，特定模型的输出在处理后被连接。图4说明了这三种类型的编解码器融合结构。特征级融合通常是最有效的，因为它考虑了不同模式之间的关系，使更深层次的整合，而不是表面的组合。

2.1.1 数据级融合

在这种方法中，来自每个模态的数据或来自每个模态的独特预处理步骤的处理数据在输入级[27]上进行组合。在此集成之后，来自所有模式的统一输入通过单个编码器来提取更高层次的特征。本质上，在输入阶段合并来自不同模态的数据，并使用单一编码器从多模态信息中提取综合特征。

最近的研究主要集中在数据级融合上，以提高自动驾驶车辆的目标检测和感知能力。研究在神经网络结构的早期阶段探索了融合摄像机和激光雷达数据，证明了增强的三维目标检测精度，特别是对于稀疏点云[35]中的骑自行车者。一个基于原始摄像机和激光雷达数据联合处理原始摄像机的框架显示，与传统的决策级融合[27]相比，在车辆检测方面提高了5%。此外，还开发了一个用于低级传感器融合的开放硬件和软件平台，特别是利用原始雷达数据，以促进该领域[36]的研究。这些研究突出了原始数据级融合的利用传感器间协同效应和提高整体系统性能的潜力。

2.1.2 特征级融合

这种融合技术背后的概念是结合来自多个抽象层次的数据，允许在深度网络的不同层次上提取特征，最终提高模型性能。许多应用程序已经实现了这种融合策略[32]，[163]。

特征级融合已经成为各种计算机视觉任务中的一种强大的方法。它涉及到结合在不同的抽象级别上的特性来提高性能。例如，在性别分类中，融合局部斑块的两级层次结构被证明是有效的[163]。对于显著目标检测，一个分层融合不同VGG层次特征的网络保留了语义和边缘信息[30]。在多模态情感计算中，一种“分而治之和结合”的策略探索了局部和全局交互，实现了最先进的性能[32]。对于自适应视觉跟踪，开发了一个层次模型融合框架来分层更新对象模型，指导参数空间的搜索，降低计算复杂度[33]。这些方法展示了跨不同领域的分层特征融合的通用性，展示了其捕获细粒度和高级信息的能力，以提高在复杂的视觉任务中的性能。

2.1.3 模型级融合

模型级融合是一种通过集成来自多个模型的输出来提高各种应用程序中的精度的技术。例如，在使用探地雷达（GPR）进行地雷探测时，Missaoui等人[34]证明了通过多流连续隐马尔科夫模型（HMM）融合边缘直方图描述符和Gabor小波的性能优于单个特征和等权重组合。

在多模态目标检测中，Guo和Zhang [28]采用了平均、加权、级联、堆叠等融合方法，将模型处理图像、语音和视频的结果结合起来，从而提高了在复杂环境下的性能。对于面部动作单元（AU）的检测，Jaiswal等人的[29]发现，使用人工神经网络（ANNs）的模型级融合比简单的特征级方法更有效。

此外，对于涉及多保真计算机模型的物理系统，Allaire和Willcox[25]开发了一种融合方法，使用模型不足信息和合成数据，导致比单个模型更好的估计。在质量控制和预测维护方面，一种新的模型级融合方法优于传统方法，将预测方差降低了30%，将准确率提高了45%的[38]。这些研究证明了模型级融合跨不同领域的有效性。

在本节中，我们将回顾基于编码器-解码器架构的融合模型。编码器-解码器框架是一种直观的方法，其中编码器首先提取特征，然后使用这些更具表现力的表示来学习相关性，实现不同模式之间的交互，并集成来自不同来源的特征。然而，该方法中的融合过程往往依赖于相对简单的操作，如加法或连接。越来越多的研究人员正在探索更复杂的方法来整合来自不同模式的特征，以更好地揭示它们之间的关系。为了提供一个总结，表2给出了关于代表性模型的详细信息。

在这里插入图片描述

2.2 基于核的融合

基于核的融合技术因其处理非线性关系和有效集成异构数据源的能力而在各个领域获得了突出的地位。这些方法利用核技术将数据映射到高维空间，从而改进了特征表示和分析[164]，[165]。通过选择适当的核函数，如多项式核或径向基函数核，这些方法可以在保持模型复杂度和精度的同时实现计算效率。

核跨模态因子分析是一种新的多模态融合方法，特别是对于双峰情感识别[166]。该技术识别最优转换来表示不同特征子集之间的耦合模式。在药物发现中，通过支持向量机（SVMs）中的核函数集成多个数据源，从而增强了药物-蛋白相互作用的预测[167]。对于视听语音活动检测，基于内核的优化带宽选择的融合在噪声环境中优于传统方法。在多媒体语义索引中，基于核的归一化早期融合和上下文晚期融合方案比标准融合方法[169]有所改进。在药物重新定位方面，基于核的数据融合有效地集成了异构信息源，优于基于排名的融合，为识别现有药物[164]的新治疗应用提供了独特的解决方案。

通过使用核技术，这些方法通过更好地表示模式，实现了计算效率，提高了预测精度。然而，存在一些挑战，包括难以选择正确的内核和调优参数，大数据集的潜在可伸缩性问题，高维投影导致的可解释性降低，以及如果没有适当正则化，存在过拟合的风险。

2.3 基于图的融合

图模型为表示和融合多模态数据提供了一种强大的方法，有效地捕获了不同模态[170]之间的复杂关系。这些模型对于处理不完整的多模态数据特别有用。例如，基于异构图的多模态融合（HGMF）方法[171]构造了一个异构超节点图来建模和融合不完整的多模态数据。HGMF利用超节点图来适应不同的数据组合，而不需要数据推断，从而实现了跨不同模式[171]的鲁棒表示。图5说明了[171]中超节点的构造。
在这里插入图片描述

最近的进展包括对抗性表示学习和图融合网络，它们旨在学习模态不变的嵌入空间，并探索模态[179]之间的多阶段交互。这些方法在多模态融合任务中展示了最先进的性能，并提供了可视化的融合结果[172]，[179]。

总之，基于图的多模态融合领域已经取得了显著的进展，超越了传统的线性融合模型，转向了更复杂的非线性和自适应的方法。通过利用图结构，这些模型捕获了复杂的、高阶的交互模式，使它们在医疗诊断、社会推荐和情感分析中非常有效。随着不断的进步，基于图的融合方法在处理不完整的、异构的数据和推动人工智能多模态应用的创新方面有了很大的希望。

2.4 基于注意力的融合

基于注意力的融合是一种利用注意力机制选择性地结合来自不同来源的信息的方法，允许模型在处理[57]、[58]、[192]的过程中动态地关注数据中最相关的部分。这种方法在多模态融合中特别重要，在多种模式中集成信息对于有效的信息集成至关重要。

在Vaswani等人[57]在他们的开创性工作“注意力是你所需要的”中引入了Transformer架构之后，注意力机制的概念得到了突出关注。从那时起，注意力机制已经成为深度学习社区的一个重要主题，因为它们能够建模长期依赖关系，并提高各种任务的性能。

在多模态融合的背景下，注意力机制使模型能够动态地权衡不同模态之间的特征的重要性。注意力机制对由查询(Q)、键(K)和值(V)组成的输入进行操作。它用每个键计算查询的点积，按√dk（其中dk是键的维度）来缩放结果，并应用一个softmax函数来获得值[57]的权重。此操作的形式化为：

在这里插入图片描述

基于注意力的融合在多模态应用中特别有效，因为它可以处理多模态数据[193]、[194]中固有的噪声和不确定性。然而，这种方法也引入了额外的计算复杂度，通常需要更大的数据集。随着这些模型的表示能力的增加，相关的计算成本也会增加。

图6说明了与注意力机制和Transformer相关的主要工作之间的关系。早期的方法，如OSCAR[185]、UNITER [186]、VILA [187]和VinVL [188]，使用了一个目标检测器来提取模态特征，然后是一个简单的融合过程。后来的模型，如CLIP [13]，代表了其高效的图像-文本匹配功能的重大进步，超过了早期的目标检测器。然而，模态特征的深度融合往往被忽视。例如，CLIP在模式之间的相互作用仅限于一个简单的点积操作，这阻碍了其实现更深层次的融合[39]的能力。

在这里插入图片描述

为了解决这一局限性，人们开发了侧重于更深层次的模态间交互的方法，这些方法通常采用
Transformer编码器或其他复杂的架构来实现更高层次的模态融合[1]。视觉Transformer（ViT）标志着多模态学习的重大转变。 ViLT [39]证明了在没有卷积网络或区域监督的情况下执行多模态任务的可行性，使用Transformer专门进行特征提取和处理。

然而，ViLT的简单结构导致了性能问题，特别是与那些强调了更深层次的模态间相互作用和融合的方法[1]，[49]相比。ViLT在许多任务中落后于这些方法，可能是由于数据集偏差或对更强的视觉能力[49]的内在需求。一般来说，视觉模型需要比文本模型更大才能获得更好的结果，而性能的下降主要不是由轻量级的视觉嵌入策略造成的。

随后的工作，如ALBEF [49]，引入了更复杂的模型设计。ALBEF强调在图像和文本表示融合前使用对比性损失对其进行对齐。通过使用动量蒸馏，它生成伪标签，以减轻噪声数据集带来的挑战。随后，BLIP [41]采用了一种boot-strapping机制，使用从模型中最初生成的标题来过滤数据集噪声，从而提高后续训练的质量。

CoCa [190]结合了对比损失和字幕损失，取得了显著的性能。特别是，CoCa不仅在多模态任务上表现出色，而且在ImageNet分类等单模态任务上达到了超过90%的第1名准确率。BEIT-3 [191]通过实现多路Transformers，进一步推进了多模态学习，能够同时处理图像、文本和图像-文本对。通过对这些输入进行掩盖数据建模，BEIT-3在各种视觉和视觉语言任务中实现了最先进的性能。

图7说明了一个基于注意力融合的常见场景。在编码器从每个模态中提取特征后，一个连接器将这些特征映射到文本空间中，在那里它们由LLM一起处理。以前，这种连接器通常是一个简单的MLP，但现在它可以是一个更复杂的注意力机制。最近，研究人员提出了各种旨在增强跨模态能力的架构和技术。它们将适配器嵌入到冻结的大模型中，以促进模式之间的交互。图8显示了该方法的基本结构。与以前的方法的关键区别在于，适配器直接嵌入到llm中，从而允许端到端的对齐训练。例如，Qwen-VL系列通过设计视觉感受器、输入-输出接口和多阶段训练管道来建模[47]先进的跨模态学习，在图像和文本理解、定位和文本阅读方面取得了显著的性能。在视频理解方面，ViLA网络[195]引入了一个可学习的文本引导帧提示器和一个跨模态蒸馏模块（q前蒸馏器），用于关键帧选择，提高了视频语言对齐的准确性和效率。此外，CogVLM [196]将视觉专业知识整合到预先训练的语言模型中。在情绪识别任务中，COLD Fusion为多模态情绪识别[197]添加了一个不确定性感知成分。

在这里插入图片描述

各种训练前的策略可以促进多模态融合。例如，BLIP-2 [42]引入了一种bootstrapping方法，使用冻结的图像编码器和大型语言模型进行视觉语言预训练，减少了参数的数量，提高少样本的学习性能。类似地，VAST模型[198]探索了一个涉及视觉、音频、字幕和文本，构建一个大规模数据集，并训练一个能够感知和处理所有这些模式的基本模型。此外，ONE-PEACE模型[199]采用了模块化的适配器设计和共享的自注意力层，以提供一个灵活和可扩展的架构，可以扩展到更多的模式。Zhang等人[200]的研究使用Transformers进行端到端解析和功能图像融合，利用自注意力来整合全局上下文信息。

尽管取得了这些进展，但该领域仍然面临着一些挑战。其中一个主要的挑战是数据偏差，即训练数据集的固有偏差限制了模型的性能。另一个问题是保持不同模态之间的一致性，以确保连贯的信息集成而不丢失或不一致。此外，随着模型规模的增长，对计算资源的需求也在增加，因此需要更有效的算法和硬件支持。表3总结了一些最先进的（SOTA）或流行的基于注意力的模型。

在这里插入图片描述
总之，多模态融合仍然是一个动态和不断发展的研究领域，由基于注意力的机制和模型架构的进展。尽管在开发有效整合来自多种模态的信息的模型方面已经取得了重大进展，但诸如数据偏差、模态一致性和计算需求等持续的挑战仍然存在。需要继续探索新的理论框架和技术解决方案，以实现更智能和适应性更强的多模态系统，推进人工智能技术，并为实际应用提供强大的工具。

3. 总结

3.1 模态特征对齐挑战

在多模态学习中，对齐视觉和语言特征是一项关键的任务，特别是因为早期的模型通常依赖于预先训练的目标检测模型来提取那些不是专门为多模态任务定制的视觉特征。这种不匹配导致了与文本特征[5]的错位，这阻碍了多模态编码器有效捕获健壮的图像-文本交互的能力。例如，Ma等人[5]认为模态错位是跨不同模式传递知识的一个重要障碍，强调当模态之间存在大量语义差距时，预先训练的模型经常难以知识传递。

最近的方法旨在通过创新的方法来解决这一挑战，如噪声注入嵌入。例如，CapDec在CLIP嵌入中使用噪声注入来减轻模态间隙，允许在共享语义空间中更好地对齐，即使是有限的成对数据，在少样本学习上下文[209]中显示出希望。此外，有限离散标记（FDT）等方法通过将图像和文本嵌入到共享空间中，进一步细化对齐，减少了视觉补丁和文本标记[210]之间的差异通常产生的粒度差距。

尽管有了这些进步，模态失调的挑战仍然存在，特别是在复杂的现实世界场景中，视觉和文本特征并不自然对齐。像VT-CLIP这样的模型试图通过引入视觉引导文本来增强对齐，该文本自适应地探索图像中的信息区域，以更好地关联视觉和语言特征。然而，这些解决方案仍然依赖于简化的假设，比如共享的嵌入空间，它并不能完全捕获不同模式之间的不同语义交互。这强调了在未来的研究[211]中需要更复杂的对齐技术。

3.2 计算效率挑战

早期的多模态模型由于依赖于目标检测器，特别是在推理过程中，面临着巨大的计算需求。视觉Transformers（ViTs）的发展引入了使用patch-based的视觉特征，而不是bounding boxes，显著降低了计算复杂度。然而，简单地标记文本和视觉特征仍然不足以有效地处理多模态任务。有效的模态融合方法，如注意力瓶颈和基于交换的融合，对于降低计算成本，同时保持有效的模态交互[212]，[213]至关重要。

像token融合这样的先进方法是专门为基于Transformer的视觉任务而设计的，用融合的多模态特征动态地取代无信息的token，以优化Transformer的效率[212]。类似地，融合过程中的注意瓶颈允许模型选择性地处理关键信息，在不牺牲精度[213]的情况下最小化计算负荷。此外，PMF（基于提示的多模态融合）等方法通过在变压器中使用深层提示，简化了融合过程，有效地减少了内存的使用，同时保持了健壮的多模态交互[214]。

尽管取得了这些进展，但随着模型的规模和复杂性不断增长，还需要更多的研究来完善核聚变机制并减少计算需求。

3.3 数据质量挑战

从互联网上获得的大规模多模态数据集，如图像-标题对，往往包含图像与其对应文本之间的不匹配或不相关的内容。这个问题的出现主要是因为这些图像-文本对是针对搜索引擎进行了优化的，而不是针对精确的多模态对齐。因此，在这种有噪声的数据上训练的模型可能难以有效地推广。为了解决这个问题，已经提出了几种提高数据质量的方法。

Nguyen等人[215]通过使用图像字幕模型生成的合成字幕来处理网络数据集中的噪声问题。通过将合成描述与原始标题集成，他们在多个基准测试任务中实现了数据效用的改进，证明了改进的标题质量可以显著提高模型性能。类似地，CapsFusion [216]引入了一个框架，它利用大型语言模型来细化多模态数据集中的合成标题和自然标题，从而提高了大规模模型的标题质量和样本效率。此外，LAION-5B数据集[90]提供了大量的clip过滤图像-文本对，表明将高数据量与有效过滤相结合可以增强视觉语言模型的鲁棒性和少样本能力。

尽管有这些改进，但在可扩展的数据过滤和保持多样性方面仍然存在挑战。例如DataComp [91] 的研究表明，即使进行了有效过滤、在大型多模态数据集中实现高质量和多样化的表征也很复杂。

总之，虽然合成字幕和大规模过滤方法提高了多模态数据集的质量，但需要进一步改进可扩展过滤技术和多样性保留，以充分解决与网站收集的多模态数据集相关的挑战。