多模态数据融合方法介绍_多模态融合的层次画三张图解释-CSDN博客

本文链接：https://blog.csdn.net/m0_59235945/article/details/147721939

医疗保健领域的机器学习方法传统上专注于使用单一模态数据，这限制了它们有效复制整合多种信息源以改进决策的临床实践的能力。临床医生通常依赖各种数据源，包括患者的人口统计信息、实验室数据、生命体征和各种影像数据模态，来做出明智的决策并将他们的发现与实际情况联系起来。机器学习的最新进展促进了多模态数据的更高效整合，从而产生了能够更好地代表临床医生诊疗方法的应用程序。

模态级融合

根据最终预测中模态的组合方式，可以区分出以下技术：早期融合、中期融合、晚期融合和混合方法

图 1 数据融合架构：（a）早期融合将原始特征或提取的特征组合起来，然后传入最终模型。特征提取是可选的；（b）中期融合使用集成建模方法将从原始数据中提取的特征串联起来，其中损失在整个模型中反向传播；（c）在后期融合中，预测或特征由多个模型生成，并在单独处理后进行聚合(图片来源于文献)。

1.早期融合

在早期融合（也称为数据级融合或特征级融合）中，在训练单个机器学习模型之前，会将多种输入模态组合在一起（见图 1 (a)）。数据可以以原始形式使用，也可能需要经过各种特征提取步骤。这可以是简单的聚合方法，也可以是使用单独的模型。组合特征的方法还取决于所涉及的具体模态和模型。例如，时间序列数据可能需要在与 XGBoos等模型一起使用之前进行聚合，而多幅图像的组合可能涉及将它们堆叠为卷积神经网络 (CNN) 框架中的通道。早期融合在输入层组合来自不同模态的原始数据，保留每种模态的原始信息，同时避免丢失重要细节。此外，通过在分析之前合并数据，它可以简化模型架构，从而潜在地降低学习过程中的计算复杂度。缺点包括在网络早期层组合来自多种模态的数据时面临挑战，这可能导致每种模态的“数据丰富度”不平衡。例如，对于视觉和语言输入，视觉和语言数据都会经过轻量级特征提取器，以将数据转换为所需的特征空间。然而，与语言特征相比，机器学习模型需要对视觉特征进行更多的处理，这主要是由于图像本身的数据丰富性。因此，机器学习模型会将过多的注意力分配给视觉模态。此外，单一模态的低级特征不一定能提供能够与其他模态融合的语义含义。例如，词向量（用于语言数据的低级特征）缺乏从图像边缘推断信息的能力，而边缘特征通常是计算机视觉模型（例如 AlexNet）中提取的特征。这需要使用特定模态的特征编码，在将特征转发给机器学习模型进行特定任务处理之前，根据语义丰富度对其进行标准化。早期融合的另一个挑战是，在无需重新训练整个模型的情况下，其在适应新数据源或模态方面可能缺乏灵活性。

中级融合

在中级融合（也称为联合融合）中，不同的数据模态首先由各个模型处理，然后将提取的特征组合并输入到最终预测模型中（见图 1 (b)）。与早期融合不同，这里的损失函数通过特征提取模型反向传播，以便在每次训练迭代中生成改进的特征表示。中级融合的一种常见训练方法是首先分别对各个模态进行预训练模型。随后，冻结这些模型的权重，将它们的输出连接起来，并训练最终模型。在最后的训练步骤中，某些权重可能会在特定持续时间内或在特定模态内保持不变。然而，对于一个被视为中级融合的过程来说，至关重要的是，至少有一些权重在训练过程中至少解冻一次。中间融合的优势包括能够提取和整合不同抽象层次的特征，从而有可能捕捉到模态之间更复杂的交互。此外，它还提供了模型架构的灵活性，能够在融合前为不同类型的数据类型提供单独的处理路径，从而保留特定于模态的信息。然而，中间融合也有其自身的复杂性。额外的交互和组合可能会使模型变得复杂且耗费数据。通常用于中间融合的深度学习模型通常需要大量数据才能有效地从复杂的特征交互中学习。

后期融合

在后期融合（也称为决策级融合）中，不同的模型在不同的数据模态（原始特征或提取的特征）上运行，并通过聚合函数或辅助模型合并所得预测（见图 1 ©）。后期融合的优点之一是它可以轻松处理患者的缺失数据。例如，CLIP (对比语言-图像预训练) 是一个使用图像和文本数据预训练的网络，即使在推理过程中没有现有文本数据作为输入 (零样本学习)，它也能够充当图像分类器。另一方面，后期融合无法模拟不同模态之间的相互作用和关系，这可能导致信息丢失。此外，后期融合也有其自身的一系列挑战。不同模型的结果集成可能很复杂，确定组合它们的最佳方式并不总是那么简单。

混合融合

之前讨论过的融合方法都可以组合（或混合），使每种模态都以其最优方式进行处理，从而减轻早期融合造成的模态不平衡，同时还能对后期融合无法实现的模态间依赖关系进行建模。例如，在处理视觉语言模型时，研究发现，在将图像数据与语言数据合并之前，如果对图像数据进行一定程度的独立处理，则联合建模效果最佳。虽然混合融合具有处理模态不平衡的优势（如图2所示，它允许定制数据模态的集成），但设计这些网络具有挑战性，因为决定在处理流程的哪个点需要组合模态需要仔细考虑。在医疗保健领域，混合融合主要发生在数据模态之一是图像的情况下。这在多模态组织学数据处理中很常见，其中组织病理学图像被处理到全局特征级别，然后再与表格基因组数据合并。

图2 混合融合架构的示例：（a）损失仅对某些模态（蓝色）进行反向传播，而其他模态（黄色）在后续步骤中融合；（b）类似于（a），但仅使用来自一种模态的预测；（c）来自一种模态（蓝色）的特征与来自另一种模态（黄色）的预测相结合(图片来源于文献)。

特征级融合

对于早期和中期融合，可以区分出各种特征融合方法，如图3供了一个简短的总结。

图3 特征级融合：（a）连接涉及端到端合并特征向量。（b）基于操作的方法通过逐元素的数学运算或注意机制组合向量，从而需要相同形状的向量。（c）基于学习的融合使用机器学习在共享信息空间中重建原始特征(图片来源于文献)。

直接连接

特征直接连接是指将特征向量附加在一起形成一个更长的向量，见图 3(a)。比如我们经常做的影像组学研究中，将临床特征与组学特征联合进建模，或者是PET结合CT特征建模。由于这种方法简单易懂，能够灵活地适应不同长度的输入，并且不需要额外的参数调整，因此在实践中经常使用。然而，它也有缺点：连接特征会产生长向量，这可能导致过拟合，尤其是在训练数据集不够大的情况下。

基于操作

在基于操作的融合中，特征向量通过逐元素操作进行组合，即对两个或多个相同维度的数组或矩阵中的相应元素执行操作（参见图3（b））。这种方法要求向量具有相同的形状，使用逐元素或逐通道乘法。注意层中的逐元素乘法是指将两个矩阵的相应元素相乘，而逐通道乘法是指将一个矩阵的整个通道（多维数组中的特定维度）与另一个矩阵的整个通道相乘，将通道视为单个实体。或者，可以以基于注意的方式（使用注意层）组合特征向量，使用一个特征向量作为另一个特征向量的注意权重。此外，在基于张量的乘法中，通过进行外积来组合特征向量，目的是提供超出单个特征的信息。

基于学习

在基于学习的融合中，使用机器学习模型组合特征向量（见图 3 ©）。基于学习的方法的一个具体示例是图卷积网络 (GCN)，它使用节点和边来建立输入数据之间的关系（例如，表示图像特征的节点和表示图像与非图像特征之间相似性的边），最终学习一个共同的特征向量。类似地，在基于图像的网络中（例如 CNN、ViT），可以使用不同的“图像通道”来组合来自不同模态的信。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述