论文阅读《Do Pre-trained Models Benefit Knowledge Graph Completion?A Reliable Evaluation and a Reasonab》

Jiawen9

已于 2022-08-07 14:53:50 修改

阅读量1.1k

点赞数

分类专栏： # 预训练模型文章标签：知识图谱自然语言处理

于 2022-07-18 11:28:41 首次发布

本文链接：https://blog.csdn.net/cjw838982809/article/details/125844565

版权

预训练模型专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Do Pre-trained Models Benefit Knowledge Graph Completion? A Reliable Evaluation and a Reasonable Approach.(Finding of ACL 2022)

论文开源代码-github

提出背景

预训练模型被证明可以从文本中获得真实的知识，这促使着基于PLM的知识图谱补全（Knowledge graph completion, KGC）模型的提出，然而这些模型在性能上远远落后于KGC任务的SOTA。

比KGE的Hits@10中的SOTA模型低约20.8%

作者认为主要有以下两个原因：

1.封闭世界假设(Closed World Assumption, CWA)的设置会限制基于PLM的KGC模型，预训练模型引入了很多的外部知识。

2.大多数基于PLM的KGC模型只是简单拼接实体和关系的标签作为输入，导致句子不连贯，没有充分利用PLM中的隐性知识。

封闭世界假设 (Closed-world assumption, CWA)认为，在给定的知识图谱中没有出现的三元组是错误的。我们可以很容易在 CWA 下评估没有标注的模型的性能。然而，CWA 本质上是一种近似，不能保证评估结果的准确性。

开放世界假设 (Open-world assumption, OWA)认为知识图谱中包含的三元组是不完备的。因此，开放世界假设下的评估更准确、更接近真实场景，但需要额外的人工标注，仔细验证知识图谱中不存在的完整三元组是否正确。

对于一个三元查询(England, contains, ?)，基于PLM的KGC模型给出了许多正确的尾实体，但在CWA下只有Pontefract 被认为是正确的，因为它存在于KGs中。

模型介绍

基于PLM的KGC模型PKGC，可以更好的诱导隐藏在PLM参数中的隐性知识和KGs中的结构化知识。

给定一个三元组，我们将它的信息填入到三元组模板(triple prompts)和支持模板(support prompts)中。

最终模板T = [CLS] P^T P^S[SEP]，[CLS]的输出用来预测给定三元组的类别(label)。

另一方面我们将正/负例的三元组输入到我们的模型中进行三元组分类。

三元组模板 P^T ：对于每个关系，手动为其设计了一个hard模板，以关联三元组的语义。例如体育关系成员的hard模板为“[X] plays for [Y]”，将[X]和[Y]替换成头实体和尾实体，同时在其中添加一些soft提示。

支持模板P^S：除了知识图谱本身的三元组信息，我们还为模板中添加如定义和属性的支持信息。为了避免模型过于复杂,为实体随机选择一个属性。模型并不要求所有支持信息都要呈现。如果不存在，就不要添加相应的信息。

数据集构建及实现细节

在实验中，本文使用了两个主要的数据集，分别来自 Wikidata 和 Freebase。

Wiki27K构建的详细步骤：

(1)从四个方面对实体进行评分:实体出现频率、实体是否有英文维基百科链接、实体是否有非英文维基百科链接、实体是否有 Freebase链接，从得分排名前3万个实体中随机选取27122个实体形成我们的实体集 E。

(2)将关系按频率由高到低选出前 200 个关系，与CoDEx和LAMA中的数据集中的关系并在一起组成关系集合R。

(3)在wikidata里选择在存在于E和R中的句子中提取三元组。

(4)随机洗牌它们，并以8:1:1的比例组成训练集/验证集/测试集。

(5)R中如果存在对称关系(即如果(h, r, t)成立，那么(t, r, h)也成立)，如果(h, r, t)存在于训练集，(t, r, h)存在于验证集或测试集，模型就能够轻松做出预测。为了避免这种信息泄露，对于每个对称关系 r，如果(t, r, h)在验证集或测试集，我们从训练集中删除(h, r, t)。

FB15K-237和FB15K237-N构建的详细步骤：

(1)Freebase中存在许多CVT节点(CVT可以被认为是一个不需要展示名称的主题)，这些节点会不恰当地提高模型的准确性。文中通过去除FB15K-237中的CVT节点获得数据集FB15K237-N。

(2)为了增加三分类的难度，我们在FB15K-237-N的基础上增加负例三元组构建数据集FB15K237-NH。该数据集仅用于三元分类。具体来说，对于验证集和测试集中的每一个正例三元组(h, r, t)，我们使用TransE做链接预测，并使用概率最高的非答案实体替换缺失实体，做负例。

召回和重排序框架

链接预测需要大量的计算，基于PLM的模型的运行效率远远低于KGE模型。为了缓解这一问题，对于三元组查询(h, r, ?)，我们首先使用KGE模型(实验中使用TuckER)来获得头尾部实体的排序。之后，我们选择排名前X的实体，并使用基于PLM的KGC模型重新计算得分。基于这些分数，我们可以对排名前X的实体重新排序。