专题解读｜多模态图学习

最新推荐文章于 2025-03-05 11:23:50 发布

程序猿李巡天

最新推荐文章于 2025-03-05 11:23:50 发布

阅读量1.6k

点赞数 11

文章标签：学习语言模型目标检测目标跟踪人工智能自然语言处理

本文链接：https://blog.csdn.net/m0_59235945/article/details/144110870

版权

多模态图

随着人工智能技术的不断进步，特别是在多模态数据处理方面，多模态图学习（Multimodal Graph Learning, MGL）逐渐成为研究的热点。多模态图融合了来自不同模态（如文本、图像、声音等）的数据，使得节点可以表示不同类型的实体，边则展示了这些实体间的复杂关系。这种数据结构在医疗保健、社交媒体、交通等多个领域都有广泛的应用。下面将分别介绍多模态图学习的定义和两个工作。

多模态图定义

多模态图（Multimodal Graphs, MGs）被定义为携带异构模态数据的图，例如视觉、文本和声音数据的组合。研究的重点是节点携带多模态数据，而边的特征是单模态的，并且反映了节点之间的连接。根据数据模态在节点中的分布，多模态图被分为三种类型：特征级多模态图、节点级多模态图和图级多模态图。

特征级多模态图：每个节点存储多模态特征的图；
节点级多模态图：每个节点携带单模态特征，但节点间特征模态不同的图；
图级多模态图：包含多个子图，每个子图仅存储单一模态的特征。

Multimodal Graph Learning for Generative Tasks（NeurIPS 2023）

现实世界的应用中存在多种数据模态，如文本、图像、视频等，它们之间存在复杂的多对多关系，而不仅仅是简单的一对一映射。这些数据模态通常以图的形式存在，其中节点代表不同类型的实体，边代表它们之间的连接。为了捕捉这些复杂的关系，作者提出了多模态图学习（MMGL），这是一个系统化的框架，用于处理具有关系结构的多个多模态邻居的信息。框架的目标是在预训练的语言模型（LMs）的基础上，通过整合多模态邻居的上下文信息来增强文本生成的能力。

作者提出了三个研究问题，以探索如何有效地将多模态邻居信息和图结构信息整合到LMs中，并以高效参数的方式进行微调。

研究问题1：如何在避免可扩展性问题的同时，将多个多模态邻居的信息注入到预训练的LMs中？

在多模态图学习（MMGL）中，一个关键挑战是如何有效地处理和整合来自多个邻居的信息，尤其是在这些信息的数据大小和类型各不相同时。为了解决这个问题，作者提出了三种邻居编码模型，每种模型都有其优势和权衡：

SA-Text+Embeddings：这种方法通过将文本邻居作为原始文本直接连接到输入序列中，图像和其他模态的数据则通过冻结的编码器转换为嵌入，然后与文本嵌入一起输入到模型中。这样能够保留更多的文本信息，但可能会因为输入序列长度的增加而遇到可扩展性问题。
SA-Embeddings：与SA-Text+Embeddings相比，这种方法将所有模态的数据（包括文本）都通过冻结的编码器转换为嵌入，这样可以减少输入序列的长度，提高模型的可扩展性，但可能会因为信息瓶颈而丢失一些信息。
CA-Embeddings：这种方法通过将预处理的文本或图像嵌入输入到交叉注意力层中，可以更灵活地处理多模态数据。这种方法在处理时不直接依赖于输入序列的长度，因此在可扩展性方面表现更好，但需要对交叉注意力层进行训练，可能会影响预训练LMs的初始状态。

研究问题2：如何将多模态邻居之间的图结构信息注入到LMs中？

多模态数据通常具有复杂的图结构，例如Wikipedia页面中的不同部分之间的层次结构。为了将这种结构信息有效地整合到LMs中，作者比较了三种不同的图位置编码方法：

序列位置编码：这种方法将邻居信息简单地串联起来，不显式地考虑它们之间的图结构关系。
Laplacian eigenvector position encoding (LPE)：通过使用图的拉普拉斯特征向量作为位置编码，这种方法可以捕捉邻居之间的结构关系。
Graph Neural Networks (GNN)：通过利用图神经网络对预先处理好的邻居节点嵌入进行处理，并使用图结构信息，这种方法可以更直接地将图结构信息编码到位置编码中。

这些方法的目标是将图结构信息作为位置编码的一部分，以便在LMs中使用，从而提高生成任务的性能。

研究问题3：如何以高效参数的方式微调预训练的LMs，以从邻居上下文中学习？

在多模态图学习中，对预训练的LMs进行全面的微调可能会非常昂贵，尤其是在处理大规模数据集时。为了以高效参数的方式进行微调，作者探索了三种高效参数微调（PEFT）方法：

Prefix tuning：这种方法通过在模型的激活向量前添加一系列连续的任务特定向量，可以在不改变模型主体的情况下调整模型的行为。
LoRA：低秩适应是一种在模型的每层中注入可训练的低秩矩阵的方法，这些矩阵可以在保持大部分预训练参数不变的情况下调整模型的权重。
Flamingo：这种方法专门针对CA-Embeddings邻居编码，通过只微调新添加的交叉注意力层，并使用门控模块来保持预训练LMs的初始状态，从而在微调过程中保持模型的稳定性和性能。

这些PEFT方法的目标是在保持预训练LMs的大部分参数不变的情况下，通过调整一小部分参数来适应特定的任务和数据，从而在性能和计算成本之间取得平衡。通过在WikiWeb2M数据集上的广泛实验，作者展示了这些方法在处理多模态数据和生成任务中的有效性。

图1 多模态邻居信息编码与文本生成架构

实验表明在多模态图学习（MMGL）中，提供丰富的多模态邻居信息对于提升文本生成任务的性能是有益的。

图2 多模态邻居信息的有效性

Multi-Modal Knowledge Hypergraph for Diverse Image Retrieval （AAAI 2023）

在现实世界的应用中，用户经常使用关键词作为查询来进行图像检索。由于关键词语义范围广泛，因此检索结果的多样性对于满足用户需求尤为重要。现有的方法主要分为两类：一类是基于多阶段重排序策略的方法，这些方法依赖于人工设计来实现结果的多样化；另一类是基于多语义表示的方法，这些方法通过隐式生成器扩展子语义，但这些方法要么依赖于人工劳动，要么缺乏可解释性。为了学习更多样化且可解释的表示，作者提出了一种新的方法，通过利用包含更丰富实体和关系的多模态知识图谱（MMKG），以显式方式捕获子语义。

作者提出了一种无度（degree-free）超图解决方案，通过超链接（hyperlinks）模拟多对多关系，以解决异构源和异构模态的挑战。具体来说，提出了一种基于超链接的多模态知识超图（MKHG），它通过各种超链接桥接异构数据，以多样化子语义。以下是该方法的核心组成部分：

知识超图构建（Knowledge Hypergraph Construction）

利用现成的多模态知识图谱（MMKG）作为基础图，不对其进行修改。
通过添加三种类型的超边（视觉超边、文本超边和属性超边）来构建多模态知识超图，以捕获多对多的关系。

多模态实例打包（Multi-Modal Instance Bagging）

显式地选择多个实例来多样化语义，通过高阶关系的超边来表示基于关键词的查询。
实例打包模块将输入样本表示为一个混合实例包，包括自身和其他高阶相关实体。

多样化概念聚合器（Diverse Concept Aggregator）

设计概念聚合器来使实例更加合理，即减少冗余并均匀分布不同的概念。
使用多实例图来学习概念之间的关系，并移除冗余实例。

语义空间优化（Semantic Space Optimizer）

设计了几种损失函数来优化语义空间，包括图匹配损失（Graph Matching Loss）、实例级损失（Instance-level Loss）和知识级损失（Knowledge-level Loss）。

图3 基于超链接的多模态知识超图

实验评估了多模态知识超图（MKHG）在关键词基础多样化图像检索任务中的有效性。

图4 多模态知识超图的性能

总结

本文介绍了多模态图的定义和相关研究，重点分析了MMGL和MKHG两项研究。这表明了多模态图学习在图任务中具有巨大的潜力和重要性。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述