【基于知识约束的预训练语言模型的多语种知识图谱补全】论文分析鉴赏_多语言知识图谱补全和单语的补全有什么关联呢?-CSDN博客

本文链接：https://blog.csdn.net/qq_43701258/article/details/144934034

自我介绍：

您好，我们是一群热情洋溢的探索者，致力于深耕于知识图谱和大型语言模型（LLM）领域。我们的目标是挖掘、分析并分享那些能够启迪思维、推动科学进步的优质学术论文。我们坚信，知识的传播和交流是促进创新和社会发展的关键力量。

论文标题

Multilingual Knowledge Graph Completion from Pretrained Language Models with Knowledge Constraints
基于知识约束的预训练语言模型的多语种知识图谱补全

论文链接

https://arxiv.org/abs/2406.18085

作者

Ran Song1,2, Shizhu He3,4, Shengxiang Gao1,2,
Li Cai5, Kang Liu3,4, Zhengtao Yu1,2 ∗, and Jun Zhao3,4

论文代码地址

https://github.com/Maxpa1n/gcplm-kgc

论文背景

多语言知识图谱补全（Multilingual Knowledge Graph Completion, mKGC）旨在通过对尾实体（tail entity）进行推理来解决不同语言中的（h, r, ?）等查询，从而改进多语言知识图谱。先前的研究利用多语言预训练语言模型（PLMs）和生成范式来实现mKGC。尽管多语言预训练语言模型包含了不同语言的广泛知识，但其预训练任务不能直接与mKGC任务对齐。此外，目前可用的大多数kg和plm都表现出明显的以英语为中心的偏见。这使得mKGC很难获得好的结果，特别是在低资源语言的上下文中。为了克服以往的问题，本文引入了mKGC的全局和局部知识约束。前者用于约束回答实体的推理，后者用于增强查询上下文的表示。该方法使预训练模型能更好地适应mKGC任务。

问题分析

多语言知识图谱补全，首先是在多种语言基础上的，作者发现数据集DBpedia的不平衡语言分布，如下图所示:
在这里插入图片描述
很明显的看到，其中EN(英语)所占的语言比例最高，这会导致模型更多的学习到以英语为基础的语言补全回答，而对于其他语言回答不敏感。
论文又给出以下问题，基于Pix-lm模型为基础，当回答问题时，结果答案往往和问题查询不是相同语言，且回答排名靠前的不准确。
在这里插入图片描述
上述表格中看到，当查询是（第86次日本比赛，体育场，？）查询尾实体，其中Prix-LM的回答，往往不尽人意，语言不对应。