SS-AGA：Multilingual Knowledge Graph Completion with Self-Supervised Adaptive Graph Alignment 论文解读

最新推荐文章于 2024-10-04 22:36:54 发布

Trouble..

最新推荐文章于 2024-10-04 22:36:54 发布

阅读量485

点赞数

分类专栏：图谱补全（链路预测）文章标签：知识图谱人工智能深度学习

本文链接：https://blog.csdn.net/qq_45041871/article/details/129553207

版权

图谱补全（链路预测）专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文提出了SS-AGA，一种用于多语言知识图谱补全的方法，通过自监督自适应图对齐解决知识不一致问题。SS-AGA将对齐作为新边缘类型，采用关系感知的GNN编码器控制知识传播，并利用自监督生成新对齐对，缓解种子对齐的稀缺性。实验结果显示，SS-AGA在公共和工业数据集上表现出优越性能。

摘要由CSDN通过智能技术生成

Multilingual Knowledge Graph Completion with Self-Supervised Adaptive Graph Alignment

摘要

预测知识图（KG）中缺失的事实是至关重要的，因为现代知识图远未补全。由于劳动密集型的人类标签，当处理以各种语言表示的知识时，这种现象会恶化。在本文中，我们探讨了多语言KG完成，它利用有限的种子对齐作为桥梁，以接受来自多种语言的集体知识。然而，现有工作中使用的语言对齐仍然没有得到充分利用：（1）对齐对被平等对待，以最大程度地推动并行实体接近，这忽略了KG容量不一致性；（2）种子比对很少，而新的对齐识别通常是以无噪声的无监督方式进行的。为了解决这些问题，我们提出了一种新的自监督自适应图对齐（SS-AGA）方法。具体而言，SS-AGA通过将对齐视为新的边缘类型，将所有KG融合为一个整体图。因此，可以通过关系感知注意力权重自适应地控制跨KGs的信息传播和噪声影响。同时，SS-AGA具有一个新的对生成器，该生成器以自监督的模式动态捕获潜在的对齐对。在公共多语种DBPedia KG和新创建的工业多语种电子商务KG上进行的大量实验实证证明了SS-AGA的有效性。

1、简介

知识图（KG），如Freebase（Bollacker等人，2008）和DBPedia（Lehmann等人，2015），对于各种知识驱动的应用都是必不可少的，如问答（Yasunaga等人，2021）和常识推理（Lin等人，2021）。KG包含实体和关系之间的结构化和语义信息，先验知识可以实例化为事实三元组(head entity,relation,tail entity)，例如，(Apple Inc., F ounded by, Steven Jobs)。随着新的事实不断出现，由于人类标注的高成本，现代KGs仍然远未补全，这促使知识图补全（KGC）任务自动预测缺失的三元组以补全知识图。

KG不完整的情况在多语言环境中更加严重，因为人类标注非常罕见，而且很难收集，尤其是对于低资源语言。不幸的是，KGC的大部分工作都致力于单独学习每种单语KG（Peng等人，2021；Xu等人，2021；Liang等人，2021；Cao等人，2021；Lovelace等人，2021），这通常在资源贫乏的KG中表现不佳（Chen等人，2017年、2020年；Sun等人，2020年）。相比之下，来自多种语言的KGs并不是自然孤立的，它们通常共享一些真实世界的实体和关系。可转移的知识可以被视为协调不同知识库的桥梁，这不仅有助于知识向低资源知识库的传播，而且缓解了所有语言昂贵的手动标注。

在本文中，我们探索了多语言KG对齐（MKGC）（Chen et al，2020），其中跨语言的种子对齐有限。为了缓解语言差距，已经开始了多语言KG嵌入方法的一些工作，该方法利用KG嵌入模块（例如，TransE（Bordes等人，2013））独立编码每个语言特定的KG，然后使用对齐损失来迫使对齐实体对最大程度地接近（Chen等人，2020；Zhang等人，2019；Sun等人，2020）。然而，这些方法主要涉及两个局限性：（1）对KG中不同语言平行实体之间的平等对待不一致性问题被忽视；（2）种子对齐的缺乏阻碍了跨语言的有效知识传递。

具体而言，现有方法通过强制所有平行实体最大程度地彼此接近来平等对待所有对齐对（Chen等人，2018；Sun等人，2018年；Chen等人，2017年）。这忽略了由于语言多样性导致的KG不一致性的潜在负面影响。例如，如图1所示，DBP-5L中的支持英语KG（Chen等人，2020）比希腊语KG（13K事实）具有更丰富的知识（80K事实）。为了完成对资源贫乏的日语KG（28K个事实）的查询（Apple Inc.，Founded by，？），我们可以通过Steven Jobs的对齐链接从资源丰富的英语KG传递更多的知识，而不是低数据的希腊语KG。然而，如果粗略地将Steven Jobs推到与英语KG和希腊KG同等接近的水平，那么Steven Job所学的嵌入将是相似的，尽管它们具有不同的结构、KG容量、覆盖范围和质量。因此，它将带来与此查询相关的信息，并可能导致模型得到错误的答案。因此，我们鼓励模型自动区分潜在的不一致性，并从适当的支持KGs迁移知识，以获得更好的语言特定KGC性能。

另一方面，种子对齐对于跨语言迁移至关重要（Chen等人，2020；Sun等人，2020），而跨语言获取此类并行实体成本高昂，而且常常会产生噪音。为了缓解这一问题，最近的一些工作（Chen等人，20182020）提出在训练过程中基于实体嵌入相似性生成新的对齐对。生成的新对可以增加KG之间的互连性，以促进知识迁移。然而，在没有任何监督的情况下简单使用实体之间的相关性可能会增加训练期间的噪声，并抑制KGs中现实语言对齐的有效性（Sun等人，2020）。

基于这些观察结果，我们提出了一种用于MKGC的自监督自适应图对齐（SSAGA）框架。为了解决知识不一致的问题，SS-AGA将对齐作为并行实体之间的一种新的边缘类型，而不是损失约束，它将来自不同语言的KG融合为一个整体图。基于这种统一建模，我们提出了一种具有关系感知注意机制的新型GNN编码器，该编码器用可学习的注意权重聚合局部邻域信息，并将同一实体的多个对齐对接收的影响进行区分，如图1(b)所示。为了缓解种子对齐的稀缺性，SS-AGA利用了一个新的对生成器，它以自监督的方式迭代地识别新的对齐对。这是通过在GNN编码之前在融合KG中掩盖一些种子对齐并教生成模块恢复它们来实现的。根据经验，SS-AGA在公共和工业数据集中都优于流行的基线。对于公共数据集，我们使用多语言的DBPedia KG (Chen等人，2020年)，对于工业数据集，我们创建了多语言的电子商务产品KG，称为E-PKG。

我们的贡献如下:(1)通过将实体对齐作为一种新的边缘类型，引入关系感知注意机制来控制知识传播，解决了MKGC的知识不一致问题;(2)我们提出了一种新的具有自监督的对齐对生成机制，以缓解种子对齐的稀缺性;(3)构建了新的工业级多语种电子商务KG数据集;(4)大量实验验证了SSAGA在公共和工业数据集上的有效性。

2、基础知识

2.1 知识图谱补全

知识图谱 $G = (E, R, T)$ 由一组实体 $E$ 、关系 $R$ 和相关事实 $T =\{(e_h, r, e_t)\}$ 组成，其中 $e_h, e_t∈E$ 是头尾实体， $r \in R$ 是关系。实体和关系由它们的文本描述表示。KG补全任务试图在给定的关系和其他实体的情况下，归因一个三元组中缺失的头部或尾部实体。在不丧失一般性的情况下，我们将讨论预测缺失尾实体的情况，我们也将其称为查询q=(e_h,r,?e_t)。

**多语言指示图谱补全(MKGC)**利用跨多种语言的KG，在每个KG上实现更准确的KG补全任务。在形式上，我们给出 $M$ 个不同的特定于语言的KG，分别为 $G_1,G_2,\ldots,G_M$ , $G_i$ 和 $G_j$ 之间只有有限的实体对齐对 $Γ_{G_i↔G_j}⊆\{(e_i, e_j): e_i∈E_i, e_j∈E_j\}$ 。我们也称 $Γ_{G_i↔G_j}$ 为种子对齐(seed alignment)对，以区别于新的或伪对齐。每个KG $G_i$ 都有自己的关系集 $R_i$ 。我们将所有KG的关系集并集表示为统一关系集 $R_1∪R_2∪\ldots R_M$ 。MKGC与实体对齐(EA)任务相关但不同(Cao等人，2019;Sun等人，2020)。在MKGC中，种子对齐不是直接监督，而是作为辅助输入特征用于跨语言迁移的训练阶段，以提高KGC的结果。

2.2 KG嵌入模型

KG嵌入模型旨在学习实体 ${e\}_{e∈E}$ 和关系 ${r\}_{r∈R}$ 的潜在低维表示。一个简单的实现是一个嵌入查找表(Bordes等人，2013;Sun等人，2019)。最近，人们探索了图神经网络(GNN)来聚集KG中的邻域信息，其中每个三元不再被认为彼此独立(Hao et al, 2019)。从数学上讲，这些方法采用了基于GNN的编码器 $g$ ，该编码器考虑到邻域信息，嵌入实体
$\{e\}_{e \in E}=g(G)$
然后，一个相关事实 $e_h, r, e_t)$ 的可信度可以通过三元组得分来衡量:
$f(e_h,r,e_t)$
$f$ 可以是任何评分函数，如TransE (Bordes et al, 2013)， RotatE (Sun et al, 2019)。我们也把它称为KGC解码器。

3、方法

我们引入了SS-AGA用于MKGC，由图2中的两个交替训练组件(a)和(b)组成:(a)一个新的对齐对生成模块，用于缓解 $G_{fuse}$ 中有限的种子对齐。具体来说，我们在融合KG中mask了一些种子对齐，以获得 $G^{Masked}_{fuse}$ ，并训练生成器 $g^a(·)$ 来恢复它们。然后，经过训练的生成器将根据学习到的实体嵌入提出新的边，并在下一次迭代中作为MKG嵌入模型 $g^k(·)$ 的 $\tilde{G}_{fuse}$ 合并到 $G_{fuse}$ 中;(b)一种新的关系MKG嵌入模型 $g^k(·)$ ，用于解决多语言KG之间的知识不一致问题，具体来说，我们将不同KG融合为一个整图 $G^{fuse}$ ，将对齐作为一种新的边类型。然后 $g^k(·)$ 计算每个节点的上下文嵌入，这些节点具有可学习的关系感知注意权重，这些注意权重不同于从多个对齐对接收到的影响。最后，KGC解码器 $f (\cdot)$ 计算三元组分数。

3.1 关系感知MKG嵌入

如前所述，在现有的MKGC方法中，知识迁移效率很低，因为它们分别对每个KG进行编码，并通过强制对齐的实体共享相同的嵌入来转移知识。为了处理知识不一致，我们首先将所有KG融合为一个整体，这将实体对齐放宽到相关事实。然后，我们设计了一个基于注意力的关系感知GNN来学习实体的上下文化MKG嵌入，它可以不同来自多个具有可学习注意力权重的对齐源的影响。然后，我们在上下文化嵌入上应用KGC解码器来获得关系事实的三元组得分。

更具体地说，我们通过在每个KG中保留三元组并将每个交叉KG对齐对 $e_i, e_j)$ 转换为两个关系事实 $e_i, r_{align}, e_j)$ 和 $e_j, r_{align}, e_i)$ 来创建融合KG，对齐边缘作为新引入的关系 $r_{align}$ 。通过这种方式，我们实现了来自不同KG的实体之间的直接消息传递，其中可以从数据中自动学习注意力权重，以区分多个对齐对的影响。我们将融合的知识图谱表示为 $G_{fuse}=(E_{fuse},R_{fuse},T_{fuse})$ ， $E_{fuse}=\cup_{i=1}^{M} E_i$ ， $R_{fuse}!=(\cup_{i=1}^{M} R_i)\cup \{r_{align}\}$ ， $T_{fuse}=(\cup_{i=1}^{M} T_i)\cup (\cup_{i,j} \{(e_h,r_{align},e_t):(e_h,e_t) or (e_t,e_h) \in Γ_{G_i↔G_j}\})$

基于融合的KG $G_{fuse}$ ，我们提出了一种基于注意力的关系感知GNN编码器 $g^k(·)$ ，以学习基于多层消息传递体系结构的实体的上下文嵌入。

在GNN的第 $l$ 层，我们首先计算关系事实 $e_i, r, e_j)$ 中实体 $e_i$ 传递的关系感知消息，如下所示:
$h_{i(r)}^l=Msg(h_i^l,r):=W_v^l Concat(h_i^l,r)$
$h^l_i$ 为 $e_i$ 在第 $l$ 层的潜在表示， $C o n c a t (\cdot ， \cdot)$ 为向量级联函数， $W^l_v$ 为变换矩阵。然后，我们提出了一个关系感知的缩放点积注意力机制来表征每个实体的邻居 $e_i$ 对自身 $e_j$ 的重要性，计算如下:
$Att(h_{i(r)}^l ,h_j^l)=\frac{\exp(\alpha_{ij}^r)}{\sum_{e_{i'},r \in N(e_j)} \exp(\alpha_{i'j}^r)},\\ \alpha_{ij}^r=(W_k^lh_{i(r)}^l)^T \cdot (W_q^l h_j^l) \cdot \frac{1}{\sqrt{d}} \cdot \beta_r$
$d$ 是实体嵌入的维度， $W_k^l,W_q^l$ 是两个变化矩阵， $\beta_r$ 是可学习的关系因子。不同于传统的注意力机制(Velickovic et al, 2018;Bai等人，2019)，我们引入 $β_r$ 来表征每个关系 $r$ 的一般显著性。这是必不可少的，因为并非所有关系对查询实体的贡献都相同。我们还注意到邻域是双向的， $N(e_j):=\{(e_{i'},r):(e_{i'},r,e_j) \in T_{fuse} \text{ or } (e_j,r,e_{i'}) \in T_{fuse} \}$ ，尾实体也会影响头实体。

然后，我们根据注意力得分，通过聚合来自实体邻居的消息来更新实体的隐藏表示:
$h_j^{l+1}=h_j^l+\sigma (\sum_{(e_{i'},r) \in N(e_j)} Att(h_{i'(r)}^l,h_j^l)\cdot h_{i'(r)}^l)$
$σ (\cdot)$ 为非线性激活函数，残差连接用于提高GNN的稳定性(He et al, 2015)。

最后，我们通过堆叠 $L$ 层来聚合来自多跳邻居的信息，并获得每个实体 $e_j$ 的上下文化嵌入: $e_j = h^L_j$ 。给定上下文化实体嵌入，KGC解码器为每个关系事实计算三元组得分: $f(e_h, r, e_t)$ 。学习目标是使以下hinge loss最小:
$J_K=\sum_{(e_h,r,e_t) \in T_m,(e_{h'},r,e_{t'}) \notin T_m,m=1,\ldots,m} [f(e_{h'},r,e_{t'})-f(e_h,r,e_t)+\gamma]_{+}$
$\gamma>0$ 是正边界， $f$ 是KGC的解码器， $e_{h'},r,e_{t'})$ 是通过将真三元组 $e_h,r,e_t)$ 的头或尾实体随机替换为同一语言特定KG中的其他实体而获得的负采样三元组。

备注1：我们的方法将跨KG对齐视为融合KG中的关系 $r_{align}$ 。知识迁移跨KGs本质上是通过可学习注意力权重 $α_{ij}^{r_{align}}$ ，其中 $e_i$ 和 $e_j$ 通过关系序列连接。由于GNN的作用， $α_{ij}^{r_{align}}$ 不同于多个对齐源的影响，与一些现有模型相反，这些模型只是通过预定义的对齐损失强制实体对彼此靠近。这样，我们在了解KG之间知识不一致的情况下，正确地进行知识迁移。

可伸缩性问题。由于我们将所有的 $M$ KG作为一个整体进行融合，并为头实体复制边缘，图 $G_{fuse}$ 的规模将变得非常大。因此，我们使用k-hop图采样器对每个节点的k-hop邻居进行采样，并计算它们的上下文化嵌入。

3.2 自监督的新对生成

在多语言KG中，我们只提供了有限的种子对齐对来促进知识迁移，因为它们的获取成本很高，甚至有时会有噪声(Sun et al, 2020)。为了解决这一问题，我们提出了一种新的自监督对齐对生成器。在每次迭代中，生成器确定新的对齐对，这些对齐对将被馈送到GNN编码器 $g^k(·)$ 中，以在下一个迭代中产生上下文化实体嵌入。生成器的训练以一种自监督的方式进行，其中生成器需要恢复mask对齐对。

**新对的产生(NPG)**依赖于两组实体嵌入:结构嵌入和文本嵌入。结构嵌入由另一个GNN编码器 $g^a: \{e^a\}_{e∈E_{fuse}} = g^a(G_{fuse})$ 获得，它与关系感知MKG嵌入模型中的 $g^k(·)$ 具有相同的架构(章节3.1)。我们使用两个GNN编码器的原因是，产生最佳对齐结果的嵌入集可能与最能实现KG补全任务的嵌入集不同。

文本嵌入由实体的文本描述和mBERT: $e^{text} = mBERT(e)$ 获得。mBERT是一种多语言预训练语言模型(Devlin et al, 2019)，由于以下优点，它对新的对齐对生成特别有吸引力:(1)它捕获了文本丰富的语义信息;(2)预训练的BERT嵌入也在不同语言之间对齐(Devlin等人，2019;Sun等人，2020)。

然后，我们将实体 $e_i$ 和 $e_j$ 之间的成对相似度评分建模为其结构嵌入和文本嵌入的余弦相似度的最大值:
$sim(e_i,e_j)=\max (\cos(e_i^a,e_j^a), \cos(e_i^{text},e_j^{text}))$
然后我们引入新的对齐对，如果两个KG中的一对未对齐实体根据跨域相似性局部缩放(CSLS)度量(Conneau et al, 2018)是相互最近的邻居，如下所示:
$CSLS(e_i,e_j)=2sim(e_i,e_j)-s(e_i)-s(e_j),\\ \text{subject to } s(e_i)=\frac{1}{K} \sum_{e_{i'} \in N(e_i)} sim(e_i,e_{i'})$
$K$ 是每个节点的 $K$ 个最近邻居的个数。CSLS能够捕获实体对之间的结构相似性。然后利用生成的对在下一次迭代中将 $G_{fuse}$ 的图结构更新为 $\tilde{G}_{fuse}$ ，以缓解有限的种子对齐的挑战。

**自监督学习(SSL)**类似于许多现有的工作(Chen et al, 2020;Sun et al, 2020)，上述NPG范式是无监督的，可能会带来意想不到的噪音。受掩码语言建模(Devlin等人，2019)的启发，该建模捕获了token之间的上下文依赖关系，我们提出了一个自监督学习过程来引导和去噪新的对生成。具体来说，我们随机mask了一些对齐关系事实 $T_{masked}⊆\{(e_h, r, e_t)∈T_{fuse}: r =r_{align}\}$ ，并让生成器恢复它们。KGs中的这种mask对齐恢复可以自动识别对齐邻居的潜在相关性，并鼓励NPG生成高质量的对齐对，这些对齐对是真实存在的，但由于有限的种子对齐而隐藏起来。

给定带有mask对齐 $G^{Masked}_{fuse} = \{E_{fuse}, R_{fuse}, T_{fuse}/T_{masked}\}$ 的融合KG, GNN编码器 $g^a$ 将实体嵌入为
$\{\tilde{e} \}_{e \in E_{fuse}}=g^a(G_{fuse}^{Masked})$
GNN $g^a$ 最小化hinge loss损失 $J_A$ 。
$\begin{aligned} J_{A}^{G_{i} \leftrightarrow G_{j}}= & \sum_{\substack{\left(e_{h}, e_{t}\right) \in \Gamma_{i j}^{p} \\ \left(e_{h^{\prime}}, e_{t^{\prime}}\right) \in \Gamma_{i j}^{n}}}\left[\left\|\widetilde{\boldsymbol{e}}_{h}^{a}-\widetilde{\boldsymbol{e}}_{t}^{a}\right\|_{2}-\left\|\widetilde{\boldsymbol{e}}_{h^{\prime}}^{a}-\widetilde{\boldsymbol{e}}_{t^{\prime}}^{a}\right\|_{2}+\gamma_{a}\right]_{+} \\ J_{A}= & \sum_{1 \leq i<j \leq M} J_{A}^{G_{i} \leftrightarrow G_{j}}, \end{aligned}$
$Γ^p_{ij} = \{(e_h∈E_i, e_t∈E_j): (e_h, r_{align}, e_t)∈T_{masked}\}$ 是mask对齐集， $Γ^n_{ij} = \{(e_h, e_t): (e_h, e_t) \notin Γ_{G_i↔G_j}\}$ 是非对齐实体对集， $γ_a > 0$ 是正边缘。 $e_{h'},e_{t'})$ 通过替换正实体对中的一个实体进行随机抽样。

3.3 训练

总损失函数为KG补全损失式(2)与自监督对准损失式(3)的组合，如下图所示
$J=J_K+\lambda J_A$
$\lambda>0$ 是一个正的超参数，用来平衡两个损失。

4、实验

4.1 数据集

DBP-5L、E-PKG。

4.2 主要的结果

4.3 消融实验

为了评估我们模型设计的有效性，我们通过提出以下模型变体进行消融实验:(i) GNN将没有关系建模的GNN编码器独立应用于每个KG，并像之前的工作一样直接迫使所有对准对彼此接近(Chen et al, 2020;Zhu et al, 2020);(ii) R-GNN是提出的关系感知MKG嵌入模型(章节3.1)，该模型利用所有种子对齐构建 $G_{fused}$ ，并通过关系感知注意力机制区别于其他KG的影响;(iii) R-GNN + NPG对R-GNN进行额外的新对生成;(iv) R-GNN + NPG + SSL是我们提出的完整模型SS-AGA，它利用SSL来指导NPG过程。我们还研究了是否共享编码器 $g^a(·),g^k(·)$ ，分别为SSL和KGC损失生成嵌入。

我们报告了DBP-5L上的平均Hits@1, Hits@10和MRR，如表4所示。正如我们所看到的，对每个KG单独应用GNN编码器会导致性能下降，因为所有对齐的实体都被迫相等地彼此靠近。由于种子对齐的稀疏性，删除新的对生成过程也会导致性能下降，这表明迭代提出新的对齐确实是有帮助的。如果在生成过程中进一步加入监督，性能将得到提高，验证了自监督对齐损失的有效性。最后，共享两个GNN编码器的参数会损害性能。尽管MKGC和实体对齐是两个密切相关的任务，可能会彼此受益，但产生最佳对齐结果的嵌入集并不一定会在MKGC任务上产生最佳性能。

5、讨论与总结

在本文中，我们提出了用于多语言知识图补全的SS-AGA算法。它通过融合所有KG并利用GNN编码器来学习具有不同于多个对齐源影响的可学习注意力权重的实体嵌入来解决知识不一致的问题。它以自监督学习的方式进行新的配对生成，以解决有限的种子对齐问题。在两个真实数据集(包括新创建的电子商务数据集)上的广泛结果验证了SS-AGA的有效性。我们目前的方法可能无法充分利用实体和关系文本的好处。在未来，我们计划研究更有效的方法来结合文本数据和图形数据，以获得更好的模型性能。我们也有兴趣研究没有对齐对的MKGC，这是一个非常实用的设置，我们现有的模型无法处理。