自我介绍:
您好,我们是一群热情洋溢的探索者,致力于深耕于知识图谱和大型语言模型(LLM)领域。我们的目标是挖掘、分析并分享那些能够启迪思维、推动科学进步的优质学术论文。我们坚信,知识的传播和交流是促进创新和社会发展的关键力量。
论文标题
Multilingual Knowledge Graph Completion from Pretrained Language Models with Knowledge Constraints
基于知识约束的预训练语言模型的多语种知识图谱补全
论文链接
https://arxiv.org/abs/2406.18085
作者
Ran Song1,2, Shizhu He3,4, Shengxiang Gao1,2,
Li Cai5, Kang Liu3,4, Zhengtao Yu1,2 ∗, and Jun Zhao3,4
论文代码地址
https://github.com/Maxpa1n/gcplm-kgc
论文背景
多语言知识图谱补全(Multilingual Knowledge Graph Completion, mKGC)旨在通过对尾实体(tail entity)进行推理来解决不同语言中的(h, r, ?)等查询,从而改进多语言知识图谱。先前的研究利用多语言预训练语言模型(PLMs)和生成范式来实现mKGC。尽管多语言预训练语言模型包含了不同语言的广泛知识,但其预训练任务不能直接与mKGC任务对齐。此外,目前可用的大多数kg和plm都表现出明显的以英语为中心的偏见。这使得mKGC很难获得好的结果,特别是在低资源语言的上下文中。为了克服以往的问题,本文引入了mKGC的全局和局部知识约束。前者用于约束回答实体的推理,后者用于增强查询上下文的表示。该方法使预训练模型能更好地适应mKGC任务。
问题分析
多语言知识图谱补全,首先是在多种语言基础上的,作者发现数据集DBpedia的不平衡语言分布,如下图所示:
很明显的看到,其中EN(英语)所占的语言比例最高,这会导致模型更多的学习到以英语为基础的语言补全回答,而对于其他语言回答不敏感。
论文又给出以下问题,基于Pix-lm模型为基础,当回答问题时,结果答案往往和问题查询不是相同语言,且回答排名靠前的不准确。
上述表格中看到,当查询是(第86次日本比赛,体育场,?)查询尾实体,其中Prix-LM的回答,往往不尽人意,语言不对应。
理论方法
为解决上述问题,本文提出了一种全局知识约束和局部知识约束的方法。上述模型整体结构图由四部分组成,分别为三元组编码器,全局知识约束,局部知识约束,答案生成模型。
三元组编码器
本文将查询三元组(h,r,t)通过序列模板构成如下结构:
< s > [ H ] X h < / s >