离散模态信息作为细粒度标记用于多模态知识图谱补全--MyGO

多模态知识图谱(MMKG)存储了包含有丰富的多模态描述信息的、结构化的世界知识。为了克服其固有的不完整性,多模态知识图谱补全(MMKGC)希望利用三元组的结构信息及实体的多模态信息,从给定的MMKG中发掘未观察到的信息。由于知识图谱的固有不完整性,现有的MMKGC方法通常使用预训练模型提取多模态特征,并通过融合模块整合这些特征进行三元组预测。然而,这种方法往往会忽略多模态数据中的细粒度语义细节及其相互作用。

1 MyGO框架

为了解决这一问题,论文中引入了一个新颖的框架MyGO,用于处理、融合和增强MMKG中的细粒度模态信息。MyGO首先将多模态的原始数据转换为细粒度的离散标记,然后通过跨模态实体编码器学习实体的表示。为了进一步增强多模态表现,MyGO引入了细粒度对比学习,以突出实体表现的特异性。

在这里插入图片描述

2 三个组成部分

MyGO框架旨在实现MMKGC模型中的细粒度多模态信息处理、交互和增强。MyGO首先使用模态标记模块将MMKG中的实体模态信息标记为细粒度离散标记序列,随后通过层次三元组建模架构进行MMKGC任务学习,包括跨模态实体编码器、上下文三元组编码器和关系解码器,以编码细粒度实体表示并评估三元组的合理性。此外,MyGO引入了细粒度对比学习模块,通过生成多样化的对比样本来增强模型性能。

  1. 模态标记(Modality Tokenization)模块:
    该模块将多模态知识图谱(MMKG)中的实体模态信息标记化为细粒度离散标记序列。通过将非文本模态(如图像、视频)处理成token序列,然后使用向量量化技术将每个token映射到离散标记中,从而生成细粒度的多模态标记。

  2. 层次三元组建模(Hierarchical Triple Modeling)架构:

    跨模态实体编码器:用于编码多模态实体信息,生成细粒度的实体表示。
    上下文三元组编码器:用于捕捉实体间的上下文关系,进一步细化实体表示。
    关系解码器:用于评估三元组的合理性,并生成预测结果。

  3. 细粒度对比学习(Fine Grained Contrastive Learning)模块:
    该模块通过生成多样化的对比样本来增强模型性能,采用新的策略生成高质量的对比样本,从而实现更详细和有效的自监督对比学习。通过对比学习,模型能够更好地捕捉多模态数据中的细微差别和相互作用。

3 结语

在公共基准数据集上进行全面实验,MyGO在MMKGC任务中超过了20个最新基线方法,达到了新的最先进性能。

论文题目:MyGO: Discrete Modality Information as Fine-Grained Tokens for
Multi-modal Knowledge Graph Completion

论文链接:https://arxiv.org/pdf/2404.09468

PS: 欢迎大家扫码关注公众号_,我们一起在AI的世界中探索前行,期待共同进步!
在这里插入图片描述

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值