LASS: Joint Language Semantic and Structure Embedding for Knowledge Graph Completion 论文解读-CSDN博客

本文链接：https://blog.csdn.net/qq_45041871/article/details/129586299

Joint Language Semantic and Structure Embedding for Knowledge Graph Completion

代码：pkusjh/LASS: Code repo for COLING 2022 paper “Joint Language Semantic and Structure Embedding for Knowledge Graph Completion” (github.com)

论文：2209.08721.pdf (arxiv.org)

期刊/会议：COLING 2022

摘要

补全知识三元组的任务具有广泛的下游应用。结构信息和语义信息在知识图补全中都起着重要作用。与以往依赖知识图谱的结构或语义的方法不同，我们提出将语义与知识三元组的结构信息联合嵌入到知识三元组的自然语言描述中。我们的方法通过针对概率结构化损失微调预训练的语言模型，为补全任务嵌入知识图，其中语言模型的前向传递捕获语义，损失重建结构。我们在各种知识图谱基准上的大量实验已经证明了我们方法的最先进的。我们还表明，由于更好地使用语义，我们的方法可以在低资源状态下显著提高性能。

简介

知识图谱(KG)，如Wikidata和Freebase (Bollacker et al, 2008)，由事实三元组组成。KG对人类和机器都是有用的资源。(头实体，关系，尾实体)形式的三元组，其中关系涉及头和尾实体，已被用于各种各样的应用，例如问题回答(Guu et al;Hao等人，2017)和网络搜索(Xiong等人，2017)。不完整性一直是KG中的一个长期问题(Carlson et al, 2010)，阻碍了其在现实应用中的广泛采用。

KG补全旨在预测事实三元组中缺失的实体或关系。现有三元组中的结构模式有助于预测缺失的元素(Bordes et al, 2013;Sun等人，2019)。例如，可以学习组合模式，根据两个连续的mother_Of关系预测关系grandmother_Of。除了结构信息，实体和关系之间的语义相关性对于推断具有相似含义的实体或关系也是至关重要的(An et al, 2018;Yao等，2019;Wang et al, 2021)。例如，如果两个实体之间存在关系CEO_Of，则关系employee_Of也存在。有两种KG补全方法，属于不同的学习范式。首先，基于结构的方法将实体和关系视为节点和边，并使用图嵌入方法来学习它们的表示。其次，基于语义的方法通过语言模型对实体和关系的文本描述进行编码。虽然结构和语义对KG的补全都很重要，但现有方法同时处理结构和语义信息并非易事。

在本文中，我们提出了一种用于知识图补全的联合语言语义和结构嵌入方法——LASS，它将语义和结构结合在一个KG三元组中。LASS通过微调预训练语言模型(LM)，将一个三元组嵌入到一个向量空间中。LASS包括语义嵌入和结构嵌入。语义嵌入捕获三元组的语义，这对应于预先训练的LM对三元组的自然语言描述的向前传递。结构嵌入的目的是重构语义嵌入中的结构，语义嵌入对应于通过LM的反向传播优化概率结构损失。直观地说，结构化损失将两个实体之间的关系视为实体嵌入之间的转换。在一系列KG补全基准测试中，LASS的表现优于现有方法。我们进一步评估了低资源环境下的LASS，发现它比其他方法数据效率更高。原因是我们的方法在训练数据中利用了语义信息和结构信息。

我们的主要贡献：

我们设计了一种自然语言嵌入方法LASS，该方法集成了KG的结构信息和语义信息，用于KG补全。我们通过微调预训练的LMs w.r.t.结构化损失来训练LASS，其中LMs的前向传递捕获语义，损失重建结构。该方法由KG模块和LM模块组成，揭示了KG模块与深度语言表示之间的联系，推进了这两个领域交叉的研究。
我们在两个KG补全任务，链路预测和三重组分类上评估了LASS，并获得了最先进的性能。研究结果表明，语义和结构的捕获对于理解KG至关重要，研究结果对许多下游知识驱动应用都有帮助。
我们表明，与现有方法相比，我们可以显著提高低资源设置下的性能，这要归功于语义知识的改进迁移。

2、LASS

我们介绍LASS，用自然语言嵌入知识图谱的语义和结构。如图1所示，LASS包含了两种嵌入:语义嵌入和结构嵌入。语义嵌入捕获了KG三元组自然语言描述中的语义。结构嵌入在语义嵌入的基础上进一步重构了KG的结构信息。LASS通过对预训练好的语言模型(LM) w.r.t.结构化损失进行微调，将KG嵌入到向量空间中，其中前向传递进行语义嵌入，结构化损失优化进行结构嵌入。

2.1 语义嵌入

一个三元组KG记为 $G$ , $G$ 的每个三元组以 $(h, r, t)$ 的形式表示，其中 $h, t \in E$ , $r \in R$ 。 $E$ 是实体的集合， $R$ 是关系的集合。头实体 $h$ 、关系 $r$ 和尾实体 $t$ 之间的语义相似性对于补全一个事实三元组至关重要。例如，给定 $h =$ " Bob Dylan "和 $r =$ " was born in "，任务是预测缺失的 $t$ ，其中候选是" Duluth "和" Apple "。“Bob Dylan”和“Duluth”之间的语义相似度，以及“was born in”和“Duluth”之间的相似度应该比“Apple”之间的相似度要大，因为“Duluth”是标准的答案。预训练的LMs通过对大规模文本语料库的预训练来捕获自然语言中丰富的语义。这启发我们使用存储在LM参数中的语义来编码三元组的语义。

形式上，对于三元组 $(h, r, t)$ ，实体 $(h, t)$ 和关系 $(r)$ 都由它们对应的自然语言描述来表示。头实体 $h$ 表示为一系列符号， $T^h = (x^h_1,\ldots,x^h_{n_h})$ 来描述实体。同样， $T^t = (x^t_1,\ldots,x^t_{n_t})$ 表示尾实体 $t$ 。 $T^r = (x^r_1,\ldots,x^r_{n_r})$ 表示关系 $r$ 。我们通过LM的前向传递生成语义嵌入，如图1所示。知识图谱补全任务需要显式地建模头实体、关系和尾实体的依赖关系。例如，在链接预测任务中，头实体与尾实体之间的连接以及关系与尾实体之间的连接都有助于对尾实体的预测。因此，我们使用 $T^h,T^r,T^t$ 的连接作为LM的输入序列，并使用 $T^h,T^r,T^t$ 中每个token的输出表示的进行平均池化，从LM的前向传播作为 $t∈\mathbb{R}^k$ ，其中 $k$ 是嵌入向量的维数。

更具体地说，我们按照以下格式构造输入序列:[B] $T^h$ [S] $T^r$ [S] $T^t$ [S]，其中[B]是添加在每个输入序列前面的一个特殊符号，[S]是一个特殊的分隔符。对于不同的LM，特殊的token是不同的。例如，对于BERT， [B]和[S]分别实现为[CLS]和[SEP] (Devlin et al, 2019)。然后将输入序列转换为LM的相应输入嵌入。例如，BERT的输入嵌入是token嵌入、段嵌入和位置嵌入的和。输入嵌入被输入到LM中。我们在LM的输出层上添加了一个均值池化层，并对 $T^h$ 中每个token的输出表示进行均值池化，即 $(o^h_1,\ldots,o^h_{n_h})$ ，得到如图1所示的 $h$ 。我们用同样的方法得到 $r$ 和 $t$ 。维数 $k$ 等于LM的隐藏大小。

2.2 结构嵌入

KG的结构信息已成功应用于KG补全。传统方法认为两个实体之间的关系对应于实体嵌入之间的转换。这与上面的语义嵌入不同，前向传播不能捕获结构信息。我们建议通过微调预训练的LM和结构损失来合并结构嵌入。

目标是在语义嵌入中重构结构信息。更新后的 $h, r, t$ 嵌入仍记为 $h, r, t$ ，在保留语义信息的同时，融合了KG的结构信息。我们通过优化概率结构损失来重构语义嵌入中的结构信息，其中三元组 $(h, r, t)$ 的得分函数由式1定义:
$f(h,r,t)=b-\frac{1}{2} \parallel h+r-t \parallel_{2}^{2}$
如果 $(h, r, t)$ 成立，我们有 $h + r \approx t$ 。为了简单起见，我们在图1中也用 $f(\parallel h+r-t \parallel_{2}^{2})$ 表示。分数函数是受TransE (Bordes et al, 2013)启发的。

我们根据score函数(1)定义如下概率模型:
$Pr(h|r,t)=\frac{\exp (f(h,r,t))}{\sum_{\tilde{h} \in E} \exp (f(\tilde{h},r,t))}$
这里 $\tilde{h}$ 是从实体集 $E$ 中采样不同的头部(corrupted head)。 $P r (r ∣ h, t)$ 和 $P r (t ∣ h, r)$ 具有类似的形式，除了分母中的总和分别超过不同的关系和尾实体。

概率结构损失定义在式3中。目标是最小化KG上的负对数似然:
$L=-\sum_{(h,r,t) \in G}(\log Pr(h|r,t)+\log Pr(r|h,t)+\log Pr(t|h,r))$
优化。计算公式2中的概率在计算上是低效的，因为它需要所有可能的三元组 $(\tilde{h}, r, t)$ 的向前传递来计算分母。我们使用负抽样(Mikolov et al, 2013)使训练更有效。我们不是像Eq. 3那样最小化 $−\log Pr(h|r, t)$ ，而是像Eq. 4中描述的那样对 $h$ 建模的损失进行优化。
$L_h=-\log Pr(1|h,r,t)-\sum_{i}^{n_{ns}}\mathbb{E}_{\tilde{h}_i \sim E\setminus \{h\} } \log Pr(0|\tilde{h}_i,r,t)$
其中， $Pr(1|h,r,t)=\sigma(f(h,r,t))$ 。

对 $r$ 和 $t$ 建模的损失的定义类似。这里，超参数 $n_{ns}$ 是负样本的数量。从实体集 $E\setminus \{h\}$ 中均匀地抽取每个负采样头实体 $\tilde{h}_i$ ，而不进行替换。如果一个样本已经是一个正样本，它就不被视为负样本。通过对关系和尾实体采用类似的负采样程序，我们有最终的结构化损失 $=\sum_{(h,r,t)∈G}(L_h + L_r + L_t)$ 。

LASS的训练统一为针对结构化损失对LM进行微调。语义嵌入由LM的前向传递得到。通过LM的反向传播优化结构损失，实现结构嵌入。

3、实验

3.1 实验设置

Baseline：BERT-base、RoBERT-base、RoBERT-large。

3.2 实验结果

我们还注意到，LASS在FB15k-237上只产生了适度的Hits@10。主要原因是，与表1所示的其他链路预测数据集相比，FB15k-237呈现出更复杂的实体之间的关系。因此，更复杂的结构性损失有望使LASS获得进一步的改善。

4、讨论

结构化损失：进一步改进LASS有几个方向。LASS使用基于TransE评分函数的概率结构化损失，它学习同一嵌入空间中每个实体和关系的单异表示。但是，不同的关系需要不同的实体嵌入。我们建议在涉及不同关系时，使实体具有不同的分布式表示。例如，一个新的评分函数 $\parallel h_r+r-t_r \parallel _{2}^{2}$ 在不同的空间中建模实体和关系，并在关系空间中执行实体嵌入之间的转换。这个想法与TransH (Wang et al, 2014b)和TransR (Lin et al, 2015)的精神相同。然而，利用这些损失的一个缺点是它们将带来额外的计算开销。我们的方法旨在平衡计算成本和效率。探索涉及替代损失的轻计算方法是未来的研究方向之一。

预训练语言模型：我们已经探讨了两个预先训练的LM模型:BERT和RoBERTa。沿着这条线有三个可能的方向。首先，实验结果表明，较大的LMs通常存储更多的语义，这可以改善LASS的语义嵌入模块。我们建议检查更大的预训练lm，如GPT-2 (Radford等人，2019)，GPT3 (Brown等人，2020)和Megatron-LM (Shoeybi等人，2019)。将知识图中实体的更长的语言描述(例如，维基百科页面)结合起来，将为改进自然语言理解提供更丰富的知识。其次，针对KG补全任务的深度线性模型的微调过程，特别是链路预测，计算效率仍然很低。研究光LM架构，如ALBERT (Lan et al, 2020)，以加速训练过程，是有前途的方向之一。最后，我们提出的方法通常适用于许多知识驱动的下游NLP任务(例如，问题回答，事实探测)以及低资源的NLP任务。将我们的方法与自回归模型(例如GPT-2)集成将使该方法能够执行文本生成任务。

5、相关工作

预训练的LMs，如BERT，最近被用于在许多NLP基准测试中获得最先进的结果(Devlin等人，2019;Liu等，2019)。这些模型通常基于Transformer(Vaswani et al, 2017)，并在未标记的文本语料库上进行训练。它们被用于通过嵌入(Peters等人，2018)、微调(Radford等人，2018)或少样本学习(Radford等人，2019)来改善下游任务。双向Transformer微调是近年来NLP应用中应用最广泛的方案，本文的方法也是基于此方案。主要的区别在于，我们在LM的基础上设计了一个结构化的损失，旨在捕获自然语言的结构。

知识图谱嵌入，KG嵌入旨在将实体及其关系映射到连续向量空间。传统的KG嵌入方法用一个固定的向量表示每个实体或每个关系。对于任何三元组 $(h, r, t)$ ，他们使用评分函数 $f (h, r, t)$ 来模拟其可能性。TransE (Bordes et al, 2013)的评分函数为负平移距离。它可以用不同的几何变换进行增强，如线性投影(Wang et al, 2014b;Lin et al, 2015)或旋转(Sun et al, 2019)。基于双线性变换(Yang et al, 2015)和卷积(Dettmers et al, 2018)的其他模型在KG完成基准上也显示出有前景的结果。我们的结构性损失是受TransE启发的。主要区别如下。TransE (Bordes et al, 2013)将这种关系视为嵌入从头实体到尾实体的转化。因此当 $(h, r, t)$ 成立时， $h + r \approx t$ 。TransE基于l2范数 $\parallel h_r+r-t_r \parallel _{2}^{2}$ 设计了一种基于边际的排序损失(margin-base ranking loss)。LASS和TransE之间的主要区别是:(i) LASS利用了LM中的自然语言语义，而TransE没有;(ii) LASS是一种概率结构化损失，与TransE相比，它具有更高的计算效率和数据效率。概率损失的主要优点是，我们消除了TransE需要的规范计算，以防止训练过程通过增加实体或关系的嵌入来最小化其损失。TransE的排序损失将一些训练样例的损失计算为零，这对优化过程没有帮助。我们的概率损失利用了所有的训练样本。此外，我们在loss中引入了corrupted relation，这为结合KG结构提供了更大的灵活性。

上述传统KG嵌入方法以实体和关系为基本单位，不使用任何额外信息。然而，研究(Socher et al, 2013;王等，2014a;Xie等人，2016)表明，对实体和关系的自然语言描述建模的KG模型通常优于那些只对知识三元组结构建模的方法。Petroni等人(2019)使用LM作为虚拟KG来回答事实性问题。ERNIE (Zhang等人，2019b)将结构性KG集成到预训练模型中，以改进知识驱动的NLP任务。相比之下，我们的目标是将KG的结构和语义结合起来，通过一个统一的优化过程来完成KG任务。KGBERT (Yao et al, 2019)将KG补全任务建模为句子分类任务，并通过微调预训练的LM来解决它们。我们的LASS和KGBERT之间有几个关键的区别(Yao等人，2019):(i) LASS通过结构嵌入重建KG的结构，而KG-BERT没有;(ii) LASS将链路预测和三元组分类统一在同一体系结构下，KG-BERT针对不同任务设计不同的体系结构;(iii) LASS与使用两个系列的LM，而KG-BERT只使用了BERT-BASE。LASS并不是专门为BERT设计的，这有助于理解语义在用于KG补全的LM中的作用。

6、总结

我们提出了一种新的嵌入方法，该方法利用知识图谱的语义和结构来完成知识图谱的补全任务，并在低资源设置中提供额外的好处。该方法通过微调语言模型将知识图谱三元组映射到嵌入空间，其中正向传递捕获语义，损失重建结构。我们的方法在知识图谱完成基准上有了显著的改进。实现过程没有对语言模型体系结构进行任何修改。结果表明，学习的嵌入通常在下游知识驱动的应用程序中有用，并且可能对更多的自然语言理解任务有用。我们希望我们的研究结果将促进这一方向的进一步研究。