多模态融合综述

最新推荐文章于 2025-03-15 15:50:02 发布

用编程写诗

最新推荐文章于 2025-03-15 15:50:02 发布

阅读量2.2k

点赞数 26

分类专栏：多模态融合文章标签：人工智能计算机视觉

本文链接：https://blog.csdn.net/m0_53345417/article/details/142899097

版权

一、信息融合

多模态融合中表征的主要目的是对输入异质性数据进行统一的编码和表示，它可以理解为将原始的多模态数据转换为特定的数学表示形式或特征向量的过程。

每个模态都有其独特的数据类型和表示方式，例如图像可以用像素值表示，文本可以用词向量表示，音频可以用波形数据表示。为了表征这些不同模态所蕴含的信息，找到一种有效的表示方式，使得不同模态的信息在表征空间中具有一致的语义或相关性，以便于最大化地利用不同模态信息去完成场景任务。这种表征通常会捕捉到数据的关键特征和信息，而丢弃冗余信息，从而提高模型的性能和泛化能力。

1.联合融合方法

对每个模态的输入数据分别经过模态特定的编码器或特征提取器，得到单模态的表示，这些单模态表示被投影到一个共享的语义子空间。在这个共享语义子空间中，不同模态的特征可以进行联合融合、组合和进一步的处理。联合模式相比较其他模式可以使各个模态的表示在共享的语义子空间中保持一致的语义信息，使得模态之间的关系更加紧密，能够减少特征维度的冗余，提取出对多模态任务贡献较大的重要特征，从而方便进行跨模态的特征融合和计算。

这种投影到共享语义子空间的操作可以发生在不同的融合阶段或融合时期，本文基于联合模式在不同阶段分为四种，特征级融合(前期融合)、模型级融合、决策级融合(后期融合)和混合级融合。

1.1 特征级融合(早期融合)

特征级融合是在多模态数据输入到模型之前，将不同模态的原始数据或已从原始数据中提取的特征融合在一起，形成一个综合的表示来作为模型的输入。原始的数据蕴含不明显特征，因此原始数据和特征的融合均称为特征级融合。

每个模态的数据首先经过各自的特征提取器或直接采用原始模态信息，例如图像可以使用卷积神经网络提取特征，文本可以使用词嵌入或文本卷积神经网络提取特征，音频可以使用声学特征提取方法。然后，将从不同模态的特征中得到的表示进行融合，特征级融合最常见的方法有拼接、加法、“乘”方法和双线性融合方法。

融合后的多模态共享语义信息可以继续输入到模型中用于任务的执行，特征级融合方法可以使模型直接利用多模态特征的组合信息，从而更好地捕捉到模态之间的关联和相互作用。可能面临模态间维度不匹配、信息失真等挑战。不同模态的数据具有不同的维度和尺度，因此在融合过程中需要进行适当的处理和归一化，避免出现中维度灾难，但是存在难以处理模态之间的时序性或局部关联的缺陷。

1.2 模型级融合

模型级融合是通过在模型级别上将不同模态的特征信息进行融合，实现跨模态的信息交互和整合。基于深度学习模型的融合方法应用范围更广且效果更好。常用方法包括早期的多核学习方法，该类方法目前适合小数据集的融合任务，然而经过深度学习的成熟发展，深度学习方法能够应对各种融合的场景。基于模型的融合方法是基于模型层面，但根据应用场景会与特征级或决策级没有明显的界线，特征级融合和决策级融合不属于模型级融合。