ECCV 2024｜攻克缺失模态预测难题！单模态联合嵌入赋能非配对多模态学习

Python_金钱豹

于 2024-12-09 20:08:19 发布

阅读量1.3k

点赞数 25

文章标签：学习人工智能深度学习计算机视觉 microsoft cnn 机器学习

本文链接：https://blog.csdn.net/Python_cocola/article/details/144356749

版权

论文链接：

https://arxiv.org/pdf/2407.12616

简介

多模态学习通常依赖于这样的假设：在训练和推理阶段，所有模态都完全可用。然而，在现实世界中，由于各种因素，持续获取完整的多模态数据带来了重大挑战。这通常会导致模态缺失的问题，即某些模态的数据缺失，这不仅对多模态预训练模型的可用性构成了相当大的障碍，而且对它们的微调和下游任务中的稳健性的保持也构成了相当大的障碍。为了应对这些挑战，文中提出了一个新颖的框架，将单模态预训练模型的参数高效微调与自监督联合嵌入学习方法相结合。该框架使模型能够在推理过程中预测表示空间中缺失模态的嵌入。该方法通过及时调整，利用可用模态的信息，有效地预测缺失的嵌入。在几个多模态基准数据集上证明了它在各种缺失模态场景中的有效性和稳健性。

论文贡献

文中将多模态设置的问题定义如下：

（1）假设存在预训练的单模态编码器；

（2）为下游任务提供部分未配对的数据；

（3）在推理过程中也提供未配对的数据。

文中的假设是现实的，可直接应用于现实场景中的多模态下游任务。为此，提出了一个简单而有效的框架，通过利用单模态预训练编码器并预测缺失模态的表示来解决缺失模态问题。论文贡献如下：

利用参数有效微调（PEFT）来最少地更新预训练的单模态编码器，同时最大限度地为下游任务保留知识。
采用方差-不变性-协方差正则化 (VICReg) 架构来提高缺失模态问题不同模态之间嵌入的可预测性。
采用基于提示的方法从其他模态收集有效的任务相关信息。
证明了所提出方法更加稳健和有效，在所有测试数据集和缺少模态的各种场景中的指标中均优于以前的研究。

问题定义

考虑由两种模态组成的多模态问题设置，即和（例如，图像和文本）。进一步假设这些模态并不总是共存，这表明在训练和测试阶段都存在缺失的模态。因此，给定一个多模态数据集，可以将其分为三个子集：模态完整子集和两个模态不完整子集和（例如，仅包含图像和仅包含文本）。

基于这些假设，文中还假设没有可用于处理多模态数据的预训练多模态编码器。相反，每种模态都由其自己的预训练单模态编码器支持，该编码器是在不了解其他模态的情况下独立训练的。因此，我们专注于更通用的问题设置，当只有预训练的单模态编码器可用时，这些问题设置可以轻松应用。

如图 1 (a) 和 (b) 所示，对于每种模态，基于 Transformer实现了一个简单的后期融合策略，整合了每种模态的softmax逻辑。为了应对缺失模态带来的挑战，引入了一个特征预测器，旨在预测缺失模态的特征向量。此外，为了增强其预测能力，采用了一组可训练的提示。基于此设置，旨在构建一个多模态模型，以应对训练和测试场景中因多模态数据不完整问题而产生的挑战。

图1 模型框架

方法

利用后期融合策略实现多模态分类任务

尽管采用后期融合策略的预训练单模编码器通常在没有微调的情况下表现良好，但它们可能不足以在某些多模下游任务中获得最佳性能。然而，完全微调虽然可能提高性能，但由于其对内存和资源的需求较大，因此效果并不理想。因此，采用 BitFit作为 PEFT 方法，该方法冻结整个模型的所有参数，并在微调期间仅更新偏差项。基于此设置，将多模分类损失定义为多个模态的标准交叉熵分类损失的总和，如下所示：

其中、是模态不完整子集的损失，是模态完整子集的损失。由于提出的框架基于后期融合策略，因此它使提出的方法能够与任何其他 PEFT 方法兼容，例如基于适配器的调整或基于重新参数化的方法。

基于Prompt-Tuning进行缺失模态特征预测

在存在缺失模态的情况下，假设缺失模态的预测特征可以在推理过程中与可用模态的特征相结合，以增强预测性能，而不是仅使用现有模态的特征。因此，引入了一个特征预测器，使用一组可训练的提示来有效地解决缺失模态的问题。为了实现这一点，利用 3.2 中描述的只读提示，将其连接到单模态输入数据，然后通过基于带有专门设计的屏蔽注意力的transformer的单模态编码器进行处理。这使得特征预测器只读取编码器的内部表示（它针对下游任务进行了微调），并学习利用而不是修改它。更准确地说，将每个模态 m 的输入数据定义为，相应的输出可以表示为：

其中类标记（即 CLS）嵌入和输入标记嵌入保持不变，无论提示为何，因为使用了只读提示。基于这些输出嵌入，计算现有模态 m 的类预测，并且不存在模态 m′ 的特征（即类标记的最终嵌入）被预测为。值得注意的是，类别预测并不完全受到特征预测的影响。此外，可以通过仅调整提示来增强特征预测，而不会干扰单模态编码器中的内部表示。

为了优化特征预测，利用模态完整的数据集 Dc 并模拟缺失模态的情况。此外，为了提高与[20]中概述的方法类似的嵌入的可预测性，采用了 VICReg。基于它的用于预测嵌入同时防止嵌入崩溃的损失函数由三个组成部分组成。首先，方差项迫使批次内样本的嵌入向量不同。它涉及一个铰链损失函数，该函数保持嵌入的每个分量沿批量维度的标准偏差。其次，不变项是主要目标，在原始特征和预测特征之间计算的均方欧氏距离。最后，通过将嵌入的协方差矩阵中的非对角系数设置为零，合并协方差项以去相关嵌入的不同维度。因此，我们的特征预测的损失函数是不变性、方差和协方差项的加权平均值：

其中 s、v 和 c 是描述的不变性、方差和协方差项，λ、μ 和 ν 是超参数。此外，该损失函数基于现有模态 m 和缺失模态 m’，并且可以反之亦然地应用于模态完整数据集 Dc。因此，该方法可以有效地解决任何类型的缺失模态场景。此外，为了指导特征预测器生成适合下游任务的特征并增强分类器在缺失情况下的鲁棒性，引入了辅助分类损失。这可以通过将预测特征引入分类器并使用交叉熵损失对其进行优化来实现。它模拟缺失模态的情况，并确保预测的表示与下游任务有效地保持一致。综上所述，总体目标函数可以表示为：

实验结果

表 1. 在 70% 缺失率的训练环境下获得的定量结果。

图 2. 完整训练设置下多模态分类数据集的性能。所有实验均使用 100% 文本和 100% 图像数据进行，并根据文本缺失率进行评估。

图 4. (a) 图像特征、(b) 文本特征的 t-SNE 可视化。与没有提示的预测（红色）相比，有提示的特征预测（绿色）会导致嵌入与地面真实特征（蓝色）更加一致。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述