多模态知识图谱(MMKG)存储了包含有丰富的多模态描述信息的、结构化的世界知识。为了克服其固有的不完整性,多模态知识图谱补全(MMKGC)希望利用三元组的结构信息及实体的多模态信息,从给定的MMKG中发掘未观察到的信息。由于知识图谱的固有不完整性,现有的MMKGC方法通常使用预训练模型提取多模态特征,并通过融合模块整合这些特征进行三元组预测。然而,这种方法往往会忽略多模态数据中的细粒度语义细节及其相互作用。

1 MyGO框架

为了解决这一问题,论文中引入了一个新颖的框架MyGO,用于处理、融合和增强MMKG中的细粒度模态信息。MyGO首先将多模态的原始数据转换为细粒度的离散标记,然后通过跨模态实体编码器学习实体的表示。为了进一步增强多模态表现,MyGO引入了细粒度对比学习,以突出实体表现的特异性。

离散模态信息作为细粒度标记用于多模态知识图谱补全--MyGO_三元组

2 三个组成部分

MyGO框架旨在实现MMKGC模型中的细粒度多模态信息处理、交互和增强。MyGO首先使用模态标记模块将MMKG中的实体模态信息标记为细粒度离散标记序列,随后通过层次三元组建模架构进行MMKGC任务学习,包括跨模态实体编码器、上下文三元组编码器和关系解码器,以编码细粒度实体表示并评估三元组的合理性。此外,MyGO引入了细粒度对比学习模块,通过生成多样化的对比样本来增强模型性能。

  1. 模态标记(Modality Tokenization)模块
  • 该模块将多模态知识图谱(MMKG)中的实体模态信息标记化为细粒度离散标记序列。通过将非文本模态(如图像、视频)处理成token序列,然后使用向量量化技术将每个token映射到离散标记中,从而生成细粒度的多模态标记。

2. 层次三元组建模(Hierarchical Triple Modeling)架构

  • 跨模态实体编码器:用于编码多模态实体信息,生成细粒度的实体表示。
  • 上下文三元组编码器:用于捕捉实体间的上下文关系,进一步细化实体表示。
  • 关系解码器:用于评估三元组的合理性,并生成预测结果。

3. 细粒度对比学习(Fine Grained Contrastive Learning)模块

  • 该模块通过生成多样化的对比样本来增强模型性能,采用新的策略生成高质量的对比样本,从而实现更详细和有效的自监督对比学习。通过对比学习,模型能够更好地捕捉多模态数据中的细微差别和相互作用。

3 结语

在公共基准数据集上进行全面实验,MyGO在MMKGC任务中超过了20个最新基线方法,达到了新的最先进性能。

论文题目:MyGO: Discrete Modality Information as Fine-Grained Tokens for Multi-modal Knowledge Graph Completion

论文链接:https://arxiv.org/pdf/2404.09468


PS: 欢迎大家扫码关注公众号_,我们一起在AI的世界中探索前行,期待共同进步!

离散模态信息作为细粒度标记用于多模态知识图谱补全--MyGO_模态_02

精彩回顾

1.  GraphRAG的设计模式、挑战和改进思路

 2. 基于多模态知识图谱的多模态推理-MR-MKG

3 图检索增强生成--GRAG(GRAG: Graph Retrieval-Augmented Generation 论文链接:https://arxiv.org/abs/2405.16506 )