【基于知识约束的预训练语言模型的多语种知识图谱补全】论文分析鉴赏

自我介绍:

您好,我们是一群热情洋溢的探索者,致力于深耕于知识图谱和大型语言模型(LLM)领域。我们的目标是挖掘、分析并分享那些能够启迪思维、推动科学进步的优质学术论文。我们坚信,知识的传播和交流是促进创新和社会发展的关键力量。

论文标题

Multilingual Knowledge Graph Completion from Pretrained Language Models with Knowledge Constraints
基于知识约束的预训练语言模型的多语种知识图谱补全

论文链接

https://arxiv.org/abs/2406.18085

作者

Ran Song1,2, Shizhu He3,4, Shengxiang Gao1,2,
Li Cai5, Kang Liu3,4, Zhengtao Yu1,2 ∗, and Jun Zhao3,4

论文代码地址

https://github.com/Maxpa1n/gcplm-kgc

论文背景

多语言知识图谱补全(Multilingual Knowledge Graph Completion, mKGC)旨在通过对尾实体(tail entity)进行推理来解决不同语言中的(h, r, ?)等查询,从而改进多语言知识图谱。先前的研究利用多语言预训练语言模型(PLMs)和生成范式来实现mKGC。尽管多语言预训练语言模型包含了不同语言的广泛知识,但其预训练任务不能直接与mKGC任务对齐。此外,目前可用的大多数kg和plm都表现出明显的以英语为中心的偏见。这使得mKGC很难获得好的结果,特别是在低资源语言的上下文中。为了克服以往的问题,本文引入了mKGC的全局和局部知识约束。前者用于约束回答实体的推理,后者用于增强查询上下文的表示。该方法使预训练模型能更好地适应mKGC任务。

问题分析

多语言知识图谱补全,首先是在多种语言基础上的,作者发现数据集DBpedia的不平衡语言分布,如下图所示:
在这里插入图片描述
很明显的看到,其中EN(英语)所占的语言比例最高,这会导致模型更多的学习到以英语为基础的语言补全回答,而对于其他语言回答不敏感。
论文又给出以下问题,基于Pix-lm模型为基础,当回答问题时,结果答案往往和问题查询不是相同语言,且回答排名靠前的不准确。
在这里插入图片描述
上述表格中看到,当查询是(第86次日本比赛,体育场,?)查询尾实体,其中Prix-LM的回答,往往不尽人意,语言不对应。

理论方法

在这里插入图片描述
为解决上述问题,本文提出了一种全局知识约束和局部知识约束的方法。上述模型整体结构图由四部分组成,分别为三元组编码器,全局知识约束,局部知识约束,答案生成模型。

三元组编码器

本文将查询三元组(h,r,t)通过序列模板构成如下结构:
< s > [ H ] X h < / s >

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值