论文笔记：AdaProp: Learning Adaptive Propagation for Graph Neural Network based Knowledge Graph Reasoning

什么都不会什么都要学

已于 2023-11-21 16:55:16 修改

阅读量475

点赞数

文章标签：论文阅读知识图谱人工智能

于 2023-10-19 23:10:36 首次发布

本文链接：https://blog.csdn.net/m0_56006366/article/details/133861194

版权

论文题目：AdaProp: Learning Adaptive Propagation for Graph Neural Network based Knowledge Graph Reasoning

作者：Yongqi Zhang, Zhanke Zhou, Quanming Yao, Xiaowen Chu, Xiaowen Chu

代码链接：https://github.com/LARS-research/AdaProp

论文已被收录在KDD2023

1.Introduction

在知识图谱上进行推理的目的是根据现有的事实，为给定的查询推导出答案。用符号表示推理问题可以为( $e_{q}$ , $r_{q}$ , ?)，KG reasoning的目标是通过给定的KG获取信息，找到答案目标实体 $e_{a}$ 。

KG reasoning的现有方法可以分为以下三类

基于三元组的模型，直接通过所有学习到的entity和有关的embedding对每个可能的答案进行评分。
基于路径的方法，从查询实体 $e_{q}$ 开始，通过学习逻辑推理，生成关系路径，并探索哪一个实体更可能是查询的答案。
基于GNN的方法，GNN通过propagate实体representation信息来推理答案。GNN有着最优的性能，不过很多模型也同样有过平滑的通病。

现有的GNN方法会在所有的entity或是query entity周围的所有邻域中进行propagate即信息传递，而忽略了本地邻域和查询关系之间的语义相关性。具体来说，我们需要的在KG中的有用的信息一般只取决于查询实体和查询关系。

例如在下图figure 1中，我们要知道詹姆斯生活在哪个城市只需要实线代表的查询相关事实，而不需要虚线表示的查询无关事实。可以知道，现有的GNN方法不可避免的涉及过多不相关的entity和fact，增加的学习难度和计算成本，尤其是在大数量及的KG上。

受到上述例子的启发，我们建议在propagate的过程中对语义相关的实体进行adaptive sample自适应采样，设计采样算法时有三个挑战：

KG的规模庞大而且结构复杂
KG是多关系的，边和查询有不一样的类型关系。
没有一种直接监督或是简单的测量方法来表明实体和给定的查询之间的语义相关性。

为了应对以上的挑战，我们提出了AdaProp，这是一种基于GNN的自适应传递信息路径的方法，主要思想是减少查询过程中propagate涉及的实体的数量，并且保留相关有用的实体。

2.Related Work

2.1 GNN for KG reasoning

用于KG reasoning的GNN可以分成三个种类：

全传递方法：在所有实体之间进行信息传递，由于内存成本过大和过平滑的问题只适合应用在小传递步骤的场景中。
渐进式传递方法：从query entity逐渐传递到多跳邻居。
限制式传递方法：在限制区域中进行消息传递，这种方法一般成本很高，尤其是在大型KG。

上图是三种propagate methods的演示，一般来说渐进式消息传递方法有着最好的性能，但当传递路径很长的时候也会涉及大部分实体。

2.2 sampling methods for GNN

采样方法可以在消息传递过程中控制和选择实体，有三种对同质图的采样方法：

node-wise采样方法：从目标节点逐层进行邻域采样，每个节点都采固定数目的邻居节点。
layer-wise采样方法：从深度出发，对每一层采样固定的节点数目，采样数量的规模可控。
子图采样方法：直接提取查询实体周围的局部子图。

3 The Proposed Method

3.1 Problem formulation

我们用提出了一个用于KG推理的GNN模型，可以定义为 $F\left ( w,G^{L} \right )$ ,包含参数 $w$ 和传递路径 $G^{L}$ 。渐进式传递方法根据query entity的不同有着不同的propagate path，虽然渐进式有着很好的性能，但也忽略了查询关系的依赖性，在较大的传递路径中会涉及很多的实体，我们的目标是使用采样技术动态调整传递的路径。我们将查询相关的传递路径定义为：

其中传递路径从查询实体 $e_{q}$ 开始， $V_{e_{q} , r_{q}}^{l}$ 是自适应采样的结果， $S\left ( \bullet \right )$ 则是采样的策略。

重点是如何设计采样策略 $S\left ( \bullet \right )$ ，有两个挑战：

答案实体 $e_{a}$ 是未知的，直接对邻域实体进行采样很可能丢失查询实体和目标答案实体之间的联系。
传递路径中的实体和查询关系 $r_{q}$ 之间的语义依赖过于复杂，简单的启发式方法很难捕捉。

现有的采样方法（i）没考虑保留未知的目标实体。（ii）没有对类型关系进行建模。（iii）没用监督实体在查询传递中的依赖关系，所有都不太适用，至此我们认为KG reasoning需要一种新的采样方法，在下文中会介绍提出的自适应传递算法（AdaProp）算法。

3.2 The connection-preserving incremental sampling strategy

观察得到，大多数目标答案实体都离查询实体都不远，在统计中可以看到大多数不超过3跳的距离。所以文章采用增量式的采样方法，即是在传递过程中保留已经选择的实体。

增量采样器 $S\left ( \bullet \right )$ = $SAMP(CAND(\cdot ))$ ，包括了候选生成 $CAND(\cdot )$ 和候选采样 $SAMP(\cdot )$

3.2.1 Candidate generation

我们用 $\overline{V}_{e_{q},r_{q}}^{l}$ 来表示在 (l - 1)步中的用于抽样的候选实体，基本上所有的在上一步中所选的采样实体集的所有邻居实体都可以认为是候选实体。但是为了保证上一步所选的实体会在下次采样中保留下来，一般只将新访问的实体当作候选实体。

3.2.2 Candidate sampling

我们在候选集中不加替换地抽取K个实体作为新加的采样实体，在候选集抽选的实体和在 $\left (l-1 \right )$ 步中原来存在已被选择的实体共同作为这一步所选的实体集 $V_{e_{q} , r_{q}}^{l}$ 。

3.3 Learning semantic-aware distribution

增量取样减少了候选目标，但是随机地从候选实体中抽取K个作为抽样实体没有考虑到查询实体和查询关系的语义相关性，又因为没有直接方法衡量，直接贪婪也并不适用。为了解决这个问题，文章用参数 $\theta$ 对采样器 $S\left ( \cdot \right )$ 进行参数化。

3.3.1 Parameterized sampling distribution

在基于GNN的KG推理方法中，实体的表征 $h$ 在最后propagation中是为了衡量实体与查询之间的相关性。因此，我们引入了线性映射函数 $g\left ( h_{e0}^{l};\theta ^{l} \right ) =\theta^{\tau} h_{e0}^{l}$ , 并根据概率分布进行采样。

这里引入Gumbel top-k trick，Gumbel-trick首先从均匀分布中采样K=候选实体数量个独立噪声，用以形成Gumbel logits $G_{e}$ ， $G_{e}$ 是一个对所有候选实体的一个评分数据。评分前K的实体被采样。

3.3.2 Learning strategy

文章用 $\theta = \left \{ \theta ^{1},... ,\theta ^{l}\right \}$ 来表示采样参数，并对消息传递的路径进行参数化。由于采样分布与GNN的表征有很强的相关性，因此联合优化模型参数和采样器参数可以更好地分析查询过程中的语义依赖。具体来说，文章设计了参数的优化如下：

每个实例中的损失函数 L 是所有实体 e 的二元交叉熵损失。在算法中的可能性得分 $\phi _{e_{0}}=f\left ( h_{e_{0}}^{L};w_{\phi }^{T} \right )\in \left ( 0,1 \right )$ 表示了实体 $e_{0}$ 作为目标答案实体的可信度。

3.4 The full algorithm

下面是AdaProp算法整个过程的伪代码：

与现有的基于 GNN 的 KG推理方法相比，关键区别在于文章提出算法中的传播路径中的传播路径不再是给定的，也不是在信息传播之前就固定不变的。取而代之的是，它根据实体表征进行自适应调整，并在每个传播步骤中动态更新。此外，算法的效率也高于完全传播和渐进传播方法，因为只有一小部分实体参与其中，所以采样的额外计算成本也相对较低。与与受限传播方法需要在特定于答案的传播路径中多次传播相比，潜在的目标答案实体在最后的传播步骤中直接进行评分。

4 EXPERIMENTS

数据集

基线实验

首先基于 GNN 的方法，通常比非 GNN 的方法表现更好，因为它们能同时捕捉 KG 中的结构和语义信息。
其次，渐进传播方法，即 NBFNet 和 REDGNN，比完全传播方法 CompGCN 表现更好，特别是在大型的KG图。
相比之下，AdaProp 在 WN18RR、NELL-995 和 YAGO3-10 上的性能领先于所有基线，而在 FB15K237 上的性能则略低于 NBFNet。
并且，AdaProp在小型图上也有着不俗的竞争力。

传递路径的属性

为了定量分析传递路径的属性，文章引入了指标target over entities（ToE). $ToE(L)=TC(L)/EI(L)$ ，TC（L）是测量传递路径覆盖目标实体的比率，EI（L）是传递路径覆盖的实体个数。

训练时间

传递路径可视化

5 CONCLUSION

提出了一种新的基于GNN的KG推理方法AdaProp。不同于现有的GNN要人工设计消息传递路径方法，AdaProp在消息传递过程中学习自适应传递路径。AdaProp包括两个重要的组成部分，即增量采样策略和基于学习的采样分布。增量采样策略可以让附近的目标和层间连接得以保留，采样分布可以在传递过程中识别语义相关的实体，并且让采样器和GNN模型共同优化。通过自主学习传递路径，AdaProp在多个基准数据集上的实验结果证明了优越性。