论文浅尝 | 简单高效的基于关系的嵌入传播方法用于知识表示学习

最新推荐文章于 2025-01-13 13:51:59 发布

开放知识图谱

最新推荐文章于 2025-01-13 13:51:59 发布

阅读量358

点赞数

文章标签：学习知识图谱人工智能自然语言处理机器学习

本文链接：https://blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/129252954

版权

REP是一种针对大型知识图谱的后处理技术，它结合预先训练的嵌入与图上下文信息，通过无参数的嵌入传播提高预测质量，同时保持高效性。这种方法避免了传统图神经网络方法在大规模数据上的时间复杂度问题，显示出了显著的可扩展性。实验表明，REP在保持或提高预测准确性的同时，能以更快的速度处理大型知识图谱。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

笔记整理：郭荣辉，天津大学硕士

链接：https://www.ijcai.org/proceedings/2022/382

动机

基于三元组的方法（如TransE等）通常将关系视为实体嵌入空间上的操作。由于其优雅的简洁性和良好的可解释性，可以快速扩展到大型知识图谱（KGs）。然而，基于三元组的方法忽略了全局近邻信息。最近，图神经网络对知识图谱上下文进行建模得到了大量研究，其通过实体和关系的连接关系聚合嵌入来更新中心实体。因此，时间复杂度与三元组的数量和实体的平均度成正比，这阻碍了它们在大规模真实任务上的应用。如何在大型KGs中高效有效地利用图上下文仍然是一个挑战。为此，本文提出了基于关系的嵌入传播( REP )方法。它是一种将预先训练好的KGs嵌入与图上下文相适应的后处理技术，同时兼顾了简洁性和有效性。大量实验也表明，REP在提高或保持预测质量的同时具有显著的可扩展性。

亮点

本文的亮点主要包括：

1.通过设计没有反向传播的无参数嵌入传播，REP在利用图上下文时变得计算高效和简单；2.为了避免在KGs中嵌入传播过程中的信息失真，我们使用不同的三元组假设来纳入有价值的关系，以便REP能够保持或大幅提高预测质量；3.所提出的REP具有显著的可扩展性，在大型KGs上达到相当的性能的同时需要较少的时间，有希望得到实际应用。

概念及模型

整体框架如下图所示，REP包括：(1) 关系图上下文高效且有效地聚合特定关系的邻居信息；(2)实体自适应根据预训练和上下文嵌入计算新的嵌入表示。

•基于关系的上下文函数

知识图谱中的异质关系在理解实体意义方面起着至关重要的作用。基于三元组的方法通常将关系作为实体之间的操作，例如加法、乘法、旋转和正交变换。因此，在传播过程中忽略关系会带来信息失真。我们根据他们的假设设计关系情境函数，以与预训练的嵌入保持一致。有两种语境：

1.头图上下文：包含中心实体e的传入头关系对，其中e充当尾部实体。2.尾图上下文：由连接到中心实体的所有外向尾关系对组成。

本文选择了四种典型的基于三元组的方法，它们分别将关系视为加法、乘法、旋转变换和正交变换，并在表1中定义了相应的上下文函数。

•上下文聚合

上下文聚合旨在结合邻居信息。由于本工作旨在提高基于图上下文的方法的可扩展性，这里使用平均进行聚合信息，这有助于使嵌入保持在相同的尺度上。头实体上下文嵌入可以表示为：

尾实体上下文嵌入可以表示为：

•实体自适应

本文使用一个更新标量α∈[0,1)来平衡预训练的三元组信息和图上下文信息之间的权重。最后的实体嵌入计算：

上式中，e^0为预训练的实体嵌入。特别地，这里不使用梯度下降算法更新参数，而是直接使用计算结果进行链路预测。由于关系数量相对较少，我们固定了预先训练好的异构关系的嵌入。

理论分析

本文从参数更新的角度给出了理论分析。通常，基于三元组的方法从其得分函数f_r (h,t)开始，通过最小化基于边际排序准则来学习嵌入：

标准的随机梯度下降算法可表示为：

基于边际的排序准则背后的动机是通过扩大到负样本的距离，使得有效的三元组具有较高的得分。因此，当嵌入被该准则完全优化时，有效三元组和负样本之间的距离达到局部最优。

这里证明我们的REP通过最大化有效三元组的得分进一步改进了目标L。不失一般性，以TransE为例。最大化有效三元组的分数的目标表述为：

假设参数通过随机梯度下降法更新，首先计算h_i的偏导数，如公式所示：

在这种情况下，对头实体采用随机梯度下降算法参数更新可改写为：

令a=1-2β，此更新函数等价于实体自适应更新。

类似的，对尾实体，有：

最重要的是，REP与使用随机梯度下降最大化有效三元组得分一样，进一步优化了基于三元组的预训练嵌入目标。

实验

本文使用了四个不同尺度的数据集，如下表所示。

•简洁性分析

对于模型参数，REP除了实体和关系的嵌入外不需要任何参数，而基于上下文的方法继承了GNNs，除了嵌入外还需要多个特定层的权重矩阵。对于计算复杂度，作者进行了速度实验来比较REP - OTE和GC - OTE。GC - OTE也不需要外部参数。理论上，REP - OTE和GC - OTE具有相同的时间复杂度。但由于REP没有后向传播，其计算远小于GC - OTE。表3中的加速比数据从实证上证明了这一点。

•有效性分析

中等和大数据集的结果报告在表4中。REP增强方法在所有指标上表现最好。在小数据集上的结果报告在表5中。在这种情况下，REP - OTE优于所有基于三元组的方法，并且具有与最先进的基于上下文的方法相当的预测质量。综上所述，REP可以为基于三元组的方法带来稳定的改进，并以更少的代价获得与基于上下文的方法相当的性能。

总结

本文提出了新的方法REP，在后训练过程中利用KGs中的图上下文。其关键思想是将关系图结构信息纳入预训练的基于三元组的嵌入中。为了简化，REP使用局部平均法来进行非参数嵌入传播，而不进行反向传播。为了提高效率，REP分别为头部相关邻域和尾部相关邻域设计了图上下文函数。因此，REP可以在KGs的嵌入传播过程中减少信息失真。此外，这样的设计也给REP带来了良好的可扩展性，这对于在现实世界中利用图上下文的大型KGs具有实际意义。

OpenKG

OpenKG（中文开放知识图谱）旨在推动以中文为核心的知识图谱数据的开放、互联及众包，并促进知识图谱算法、工具及平台的开源开放。