方法分类:
一、数据处理方面:
1、模态填补(Modality Imputation):这种方法在模态数据层面进行处理,目标是通过填补缺失的模态数据来恢复完整的模态信息。
(1)模态组合方法:这种方法通过结合其他可用模态的数据,来推测或填补缺失的模态。
零值/随机值填补:这种方法将缺失的模态用零值或随机值代替,作为填补缺失模态的简单解决方案。尽管这种方法实现简单,但通常不能提供准确的信息,因此一般作为基准方法进行对比。
相似实例填补:这类方法通过寻找与当前缺失模态相似的样本,利用这些样本的数据填补缺失模态。例如,可以使用**K-近邻(KNN)**方法来检索与缺失模态最相似的样本,将其数据组合到当前样本中。这种方法能够保留更多的原始数据特征,尤其适用于任务比较简单的情况,如分类任务。
(2)模态生成方法:通过生成模型(如生成对抗网络)来合成缺失的模态。这些方法利用已有的模态信息来生成缺失的模态,从而弥补数据的不足。
自编码器(Autoencoders):自编码器通过压缩输入数据到一个低维表示(编码阶段),再将其重建(解码阶段)为原始数据。对于缺失模态的情况,可以使用自编码器来预测缺失的部分,尤其是对连续数据表现较好。
生成对抗网络(GANs):GANs由生成器和判别器组成,生成器试图生成与真实数据相似的假数据,而判别器则试图区分真实数据和生成的数据。通过训练,生成器能够学习到如何生成缺失模态的样本,从而填补缺失的模态数据。
扩散模型:扩散模型是一类基于随机过程的生成模型,能够在现有数据上生成新的模态数据。它们逐渐将数据“扩散”到目标模态,生成缺失的模态信息。
2、表示学习导向的模型(Representation-Focused Models):这类方法关注的是数据表示层面,即通过改进数据表示来处理缺失模态,而不是直接填补原始数据。
协调表示方法:这些方法通过对模态间的关系进行建模来生成更有区分性和鲁棒性的表示。通常会施加特定的约束以促进不同模态之间的协调,使得模型能够从缺失的模态中有效地学习信息。
表示组合方法:这种方法通过将现有的模态表示组合起来,生成一个统一的表示。常见的做法是利用注意力机制或者其他组合方法来加权不同模态的表示,以便为下游任务提供一个更加丰富的输入。
表示生成方法:表示生成方法的目标是通过生成模型来补充缺失模态的表示,使得即使在某些模态缺失的情况下,也能保持任务的良好性能。
在数据处理方面,模态填补方法通过在原始数据层面进行操作来处理缺失模态问题,但这些方法往往依赖于现有的模态数据,且在复杂任务中表现有限。相反,表示学习导向的模型则通过改进数据表示来应对缺失模态的问题,更加灵活,但也带来了处理模态间关系的挑战。两种方法各有优劣,适用于不同的应用场景和需求。
二、策略设计方面 :
1、基于注意力的模型:注意力机制通过计算每个模态间的相关性并根据其重要性分配权重。通过自适应调整关注点,模型能够灵活处理不同模态的数据,即使在缺失模态的情况下也能有效执行。
内模态注意力方法:内模态注意力方法关注单一模态内部的关系,首先对每个模态进行独立的注意力计算,然后将不同模态的表示进行融合。
跨模态注意力方法: 跨模态注意力方法关注模态间的关系,尤其是在某些模态缺失的情况下,通过处理跨模态的依赖关系来增强模型的表现。
2、基于蒸馏的模型:通过知识蒸馏技术,学生模型从教师模型中学习缺失模态的数据表示和跨模态关系。这种方法将复杂的知识传递给较简单的模型,适应缺失模态的情况。
3、 基于图学习的模型:图学习方法通过建立模态间的图结构,利用图的关系动态融合不同模态的数据,进而弥补缺失的模态信息。图学习能够处理模态之间复杂的关系,尤其是在模态缺失的情况下具有较好的效果。
4、多模态大语言模型:多模态大语言模型通过扩展传统的语言模型,能够灵活处理多个模态的信息。它们能够通过接受和处理来自多个模态的表示,理解并生成跨模态的内容。
在策略设计方面,四类方法分别通过不同的技术来解决缺失模态问题。基于注意力的模型适应性强,能够灵活地处理模态间的关系,但计算资源需求大;基于蒸馏的模型易于实现,适合快速解决问题;基于图学习的模型能够有效捕捉模态间的关系,但训练复杂;而多模态大语言模型具有强大的灵活性和表示能力,适应多模态任务,但计算资源需求非常高。不同的方法有不同的优缺点,研究人员可以根据具体任务选择合适的策略。