Rlogic：从知识图谱中递归逻辑规则学习12.17

露葵025

已于 2024-03-10 09:49:44 修改

阅读量1.5k

点赞数 21

分类专栏：论文文章标签：知识图谱人工智能

于 2023-12-17 15:51:30 首次发布

本文链接：https://blog.csdn.net/RM_Jin/article/details/135042564

版权

论文专栏收录该内容

31 篇文章

订阅专栏

从知识图谱中递归逻辑规则学习

摘要
1 引言
2 预备知识和问题定义
3 方法

在这里插入图片描述

摘要

逻辑规则广泛用于表示领域知识和假设，这是基于符号推理的人类智能的基础。最近，已经证明，将逻辑规则集成到常规学习任务中可以以标签有效的方式进一步提高学习性能。人们已经进行了许多尝试从知识图谱（KG）中自动学习逻辑规则。然而，大多数现有方法完全依赖于观察到的规则实例来定义规则评估的评分函数，因此缺乏泛化能力并且计算效率严重低下。 RLogic 没有完全依赖规则实例进行规则评估，而是定义了基于谓词表示学习的评分模型，该模型由采样的规则实例进行训练。此外，RLogic 将逻辑规则最重要的属性之一——演绎性质——融入到规则学习中，这一点至关重要，尤其是当规则缺乏支持证据时。为了将演绎推理更深入地推向规则学习，RLogic 以递归方式将大顺序模型分解为小原子模型。大量实验表明，RLogic 在效率和有效性方面均优于现有最先进的算法。

在逻辑推理和规则学习中，演绎性质是指当规则的前提条件满足时，可以推导出规则的结论是必然成立的。即根据已知的前提条件和逻辑规则，通过逻辑推理可以得出确定性的结论。它建立在逻辑的基础上，遵循逻辑的规则和原则。
举个例子，假设我们有以下逻辑规则：
规则1：如果一个动物是猫，并且它有爪子，那么它是哺乳动物。
规则2：如果一个动物是狗，并且它有爪子，那么它是哺乳动物。
已知条件：Tom是一只猫，Tom有爪子。
根据这些已知条件和逻辑规则，我们可以应用演绎性质来得出结论：Tom是哺乳动物。这是因为Tom满足了规则1中的前提条件（是猫，有爪子），因此根据演绎性质，我们可以推断出结论（是哺乳动物）。

1 引言

尽管深度学习在多个领域取得了突破性的进步，例如语音识别、图像分类和机器翻译，但缺乏可解释性和泛化性限制了其在更广泛任务中的应用。逻辑推理旨在利用逻辑规则推导缺失的知识，可以提供对推断结果的洞察，并可以轻松地推广到未观察到的对象。为了克服深度学习的不足，人们付出了巨大的努力将逻辑推理集成到各种现实世界应用的神经网络学习中，例如图像理解、视觉问答和知识图谱补全。
在这里插入图片描述
由于逻辑规则带来的潜在好处，人们越来越关注总结数据中共享的底层模式以自动学习逻辑规则。注意到逻辑规则是模式级别的概念，而只能从知识图谱中直接观察到实例级别的证据。例如，从图1中的KG中，我们可以观察到闭合路径（规则实例），例如：
在这里插入图片描述
为了弥合实例级观察和模式级抽象之间的差距，广泛利用规则实例的频率来定义逻辑规则的合理性。以关联规则挖掘为代表的传统方法，得分定义为相应规则的规则实例总数与主体实例总数之间的比率。规则挖掘过程就是在规则空间中进行搜索并选择得分最高的规则。例如，给定图1中的KG，用于预测头关系𝑟₂（hasGrandma）的长度为2的规则空间可以表示为树结构，从根到叶的每条路径对应一个规则体。图1中可以找到两条得分较高的规则（𝛿1得分为0.75，𝛿2得分为1），分别是：
在这里插入图片描述

实例级观察（Instance level observation）是指对具体实例或个体的观察和分析。在数据分析或机器学习领域，实例级观察通常指的是对具体数据点或样本的观察和分析，以了解其特征、属性和行为。
模式级抽象（Schema level abstraction）是指对一组实例的共同特征或规律进行提取和总结，形成更高层次的抽象概念或模式。通过模式级抽象，我们可以捕捉到数据中的共性、趋势和规律，并从中获得更广泛的洞察和理解。
举个例子来说明，假设我们有一个电子商务网站的用户数据集，包含了每个用户的年龄、性别、购买记录等信息。对于实例级观察，我们可以针对单个用户进行分析，比如分析某个用户的购买偏好、购物习惯等。而对于模式级抽象，我们可以从整个数据集中提取出一些共性或规律，例如发现在特定年龄段的男性用户更倾向于购买电子产品，或者发现在某个时间段内购买某一类商品的用户数量呈上升趋势。

最近，提出了基于神经网络的方法，它使得能够通过可微张量乘法序列对规则实例进行软计数。他们还通过搜索最大化规则头的观察（即三元组）的规则体（或证明路径）来学习规则。

尽管人们在自动学习逻辑规则方面做出了许多努力，但现有研究存在两个局限性。首先，大多数现有方法完全依赖于观察到的规则实例来定义规则评估的评分函数。他们无法挖掘没有规则实例支持的规则。例如，由于缺乏支持证据，从图1中无法得知以下规则：
在这里插入图片描述
注意，对于大型 KG 来说，规则实例的数量非常大，可扩展性是另一个核心挑战。我们建议通过基于表示学习的模型直接在模式级别学习逻辑规则，而不是完全依赖规则实例进行规则评估。规则的分数可以根据学习到的谓词表示来计算。这样，就可以在没有规则实例支持的情况下对规则进行评估。由于少量的采样规则实例足以训练这样的模型，因此大大提高了效率。
在这里插入图片描述
其次，现有方法大多数通过假设逻辑规则彼此独立来学习逻辑规则，这严重违背了逻辑规则的演绎性质。逻辑规则的演绎性质描述了组合现有规则以导出新规则的能力。例如，给定两个短规则𝛿1和𝛿3，我们可以推断出一个长规则𝛿2。 𝛿2 的推理可以分解为递归步骤，如图 2 所示。从前两个谓词开始，我们可以在 𝛿1 之后推导出中间结论 hasGrandma(𝑥, 𝑧₂)。然后，通过用派生关系替换前两个谓词，我们将规则体重写为 hasGrandma(𝑥, 𝑧₂) ∧ hasMother(𝑧₂, 𝑦) 并根据 𝛿3 得出最终结论。由于演绎性质描述了规则之间的逻辑依赖关系，因此可以将其视为对规则的“高阶约束”，这对于我们在没有规则实例足够支持的情况下验证规则至关重要。例如，虽然由于缺乏支持证据，我们不能依靠规则实例来评估𝛿3，但只要我们可以从图1中看到支持𝛿1和𝛿2的证据，通过将推演更深地推入𝛿2，𝛿3就被迫成为true 以使 𝛿2 为 true。为了将演绎性质融入规则学习中，我们建议在逻辑演绎之后以递归方式将大顺序模型分解为小原子模型。本文的主要贡献总结如下：

我们研究了逻辑规则学习的问题，并提出了一种称为 RLogic 的新颖框架，通过基于表示学习的模型直接在模式级别学习逻辑规则。
RLogic 以递归方式将大顺序模型分解为小原子模型，将演绎推理更深入地推向规则学习，这在规则缺乏支持证据时至关重要。
我们通过实验证明RLogic 在有效性和效率方面均优于现有的SOTA 算法。

2 预备知识和问题定义

符号逻辑语言中的霍恩规则。
一阶逻辑（FOL）提供了人工智能中知识表示的重要方式。 Horn 规则作为 FOL 规则的特例，由连接谓词体和单头谓词组成。在本文中，我们感兴趣的是挖掘以下形式的链状 1 Horn 规则。
在这里插入图片描述
其中 𝑟_ℎ (𝑥, 𝑦) 称为规则头，𝑟_𝑏1 (𝑥, 𝑧₁) ∧···∧𝑟_𝑏𝑛 (𝑧_𝑛−1, 𝑦) 称为规则体。结合规则头和规则体，我们将 Horn 规则表示为 (𝑟_ℎ, r_b)，其中 r_b = [𝑟_𝑏1,…, 𝑟_𝑏𝑛]。 Horn 规则的长度定义为其主体中出现的谓词数量。在符号逻辑领域，关系称为谓词。 𝛿1、𝛿2 和 𝛿3 是喇叭规则的现实示例。通过用具体实体替换 Horn 规则中的变量，我们得到一个规则实例。例如，𝛿2 的规则实例如下：
在这里插入图片描述
知识图谱语言中的霍恩规则。
一个 KG，用 G = {𝐸, 𝑅, 𝑂} 表示，由一组实体 𝐸、一组关系 𝑅 和一组观察到的事实 𝑂 组成。 𝑂 中的每个事实都由一个三元组 (𝑒_𝑖, 𝑟_𝑘, 𝑒_𝑗) 表示，其中 𝑒_𝑖, 𝑒_𝑗∈𝐸 和 𝑟_𝑘∈𝑅。 Horn 规则实例在 KG 语言中称为闭合路径。例如，在方程（1）中，CP₂表示与方程（5）中的规则实例对应的封闭路径。

注意，逻辑规则是模式级概念，只能从知识图谱中直接观察到闭合路径形式的实例级证据。为了弥合实例级观察和模式级抽象之间的差距，我们引入关系路径和目标关系，如下所示。通过忽略闭合路径上的所有具体实体，我们可以将闭合路径分为两个部分：
（1）关系路径，它被定义为关系序列 r_b = [𝑟_𝑏1 ,…, 𝑟_𝑏𝑛 ] 通过它可以在图上连接两个实体 𝑒_𝑖 和 𝑒_𝑗。如图1所示，[hasMother, hasMother, hasSon]是一条关系路径，通过它可以连接Dana和Gino。关系路径对应于符号逻辑中霍恩规则的合取体；
(2) 目标关系，被定义为单个关系𝑟_𝑡。它可以通过直接连接两个实体𝑒_𝑖和𝑒_𝑗来闭合关系路径。在图1中，关系hasUncle是关系路径[hasMother, hasMother, hasSon]的目标关系。目标关系对应于符号逻辑中 Horn 规则的头部。结合关系路径和目标关系，我们将闭合路径表示为（𝑟_𝑡，r_b）。

逻辑规则学习问题。
逻辑规则学习的目的是为规则空间中的每个规则 (𝑟_ℎ, r_b) 分配合理性分数 𝑠 (𝑟_ℎ, r_b)。 𝑠 (·) 称为得分函数。通常使用主体路径可以闭合的比率来定义评分函数（例如，关联规则挖掘的置信度和NeuralLP要满足的规则头的三元组的百分比）。在规则提取过程中，将选择得分最高的前𝑘规则作为学习规则。

3 方法

在本节中，我们提出了一种新颖的框架 ——RLogic 来学习模式级别的规则。我们建议通过基于表示学习的模型来学习逻辑规则，而不是完全依赖规则实例进行规则评估。由于少量采样的闭合路径足以训练此类模型，因此大大提高了效率。为了将演绎推理更深入地推向规则学习，RLogic 以递归方式将大顺序模型分解为小原子模型，这对于我们在没有规则实例支持的情况下检测规则至关重要。

3.1 规则评估的新方法

现有的规则评估度量在多种可能的度量中，置信度是关联规则挖掘广泛使用的最具代表性的度量。它被定义为目标关系可以闭合主体路径的比率。给定方程（4）中定义的任意规则。其置信度可计算为：
在这里插入图片描述
其中分子是其规则实例（即闭合路径）的数量，分母是其主体实例（即关系路径）的数量。信心无法区分“虚假陈述”和“未知陈述”。因此，它纯粹根据观测数据来衡量规则，并惩罚在未知区域做出大量预测的规则，这使得它很容易受到数据偏差的影响。

规则评估的建议
措施置信度的计算完全依赖于观察到的规则实例。然而，枚举规则实例通常非常耗时。相反，我们根据规则体可以被规则头替换的概率提出了一种新的规则评估度量：
在这里插入图片描述
顺序模型，例如 RNN，是学习 𝑞(𝑟_ℎ = 𝑟_𝑖 |r_b) 的自然选择。我们需要一个带有 |𝑅| 的张量(𝑙+1) 维度，用于存储学习最大长度为 𝑙 的规则的概率。获得足够的数据点来估计每个条目的成本太高并且不可能。

请注意，演绎性质是逻辑规则最重要的属性之一，它允许我们在短规则的基础上分解长规则的推理。给定形式为 𝑟_ℎ ← 𝑟_𝑖 ∧ 𝑟_𝑗 的短 Horn 规则，我们可以减少长关系路径 𝑟_𝑏1 、 𝑟_𝑏2 ,…, 𝑟_𝑏𝑛 通过用头 𝑟_ℎ 替换关系对 𝑟_𝑖 ∧𝑟_𝑗来实现。通过将不同的短Horn规则递归地应用于关系路径，它最终将转化为单个头。按照同样的思路，我们可以使用 𝑞(𝑟_ℎ |𝑟_𝑖, 𝑟_𝑗 ) 递归地计算 𝑞(𝑟_ℎ |r_b) 。例如，给定关系路径 [𝑟_𝑏1 , 𝑟_𝑏2, 𝑟_𝑏3 ], 𝑞(𝑟_ℎ |𝑟_𝑏1, 𝑟_𝑏2, 𝑟_𝑏3) 如果我们遵循以下从左到右减少路径的顺序，则可以计算如下：
在这里插入图片描述
由于每一步我们只需要对长度为2的序列进行建模，这显着减少了长序列建模（例如RNN）带来的计算负担。

虽然我们可以按照逻辑推导将关系路径简化为单个头，但由于现实世界知识图谱的稀疏性，这种头关系可能并不总是能够被观察到。为了避免惩罚在未知区域进行预测的规则，我们引入了 𝑝 (𝑟_𝑡 |𝑟_ℎ) 来弥合遵循逻辑规则的“理想预测”和知识图谱中给出的“真实观察”之间的差距。
在这里插入图片描述
其中 𝑝 (𝑟_𝑡 |r_b) 是路径 r_b闭合的比率。

3.2 RLogic 框架

在提出的测量之后，我们分别向模型 𝑞(𝑟_ℎ |r_b) 和 𝑝 (𝑟_𝑡 |𝑟_ℎ) 引入关系路径编码器和闭合比率预测器（即预测路径将闭合的比率）。给定路径 r_b，关系路径编码器首先通过递归应用不同的短 Horn 规则将 r_b 简化为单头 𝑟_ℎ。然后，闭合比率预测器通过预测路径 r_b 闭合的比率来弥合遵循逻辑规则的“理想预测”和“真实观察”之间的差距。

3.2.1 谓词表示学习。

谓词是逻辑规则上下文中的基本单位。学习低维向量来表示谓词。我们将谓词 𝑟_𝑖 的嵌入表示为 r_i ∈ R^𝑑。通过谓词的表示，RLogic 可以识别类似的谓词，例如 GrandPa 和 GrandFather，即使它们在词汇上有所不同。请注意，我们可能并不总能找到现有的关系来替换关系路径。例如，关系路径 [hasMother, hasMother, hasDaughter] 可以替换为单个关系 hasAunt，该关系可能不包含在 KG 中。为了适应看不见的关系，我们在预测集𝑅中引入一个“空”谓词，表示为𝑅0。得分函数是根据谓词的表示来计算的。对于任何候选规则，即使没有来自其规则实例的直接证据支持，我们仍然可以计算其分数。

3.2.2 关系路径编码器。

关系路径编码器的目标是找到一个头关系𝑟_ℎ来替换关系路径r_b。它需要学习推导关系路径的顺序（即在每个步骤中选择的特定关系对）和用单个关系替换关系对的概率（即 𝑞(𝑟_ℎ |𝑟_𝑖, 𝑟_𝑗 )）。
在这里插入图片描述
学习推导关系路径的顺序。 如图3所示，推导关系路径的方式有很多种。确定最佳顺序涉及搜索潜在的大问题空间。给定长度为 𝑙 的关系路径，有 𝐶_𝑙−1 =（加泰罗尼亚数）种不同的方式来分解关系路径。为了减轻高计算复杂度，我们没有枚举所有可能的推导顺序来寻找全局最优，而是采用贪心算法在每一步选择最优关系对，从而将复杂度降低为 (𝑙 -1) + (𝑙 -2) +···+1。

考虑到我们的问题中无法使用真实的推导顺序，我们必须利用不同的标准来评估路径中的关系对。熵通常用于衡量半监督学习和领域适应中预测的置信度。通过最小化熵，可以增强预测的可信度。关系对 (𝑟_𝑖, 𝑟_𝑗) 的熵定义如下：
在这里插入图片描述
熵越低，我们就越有信心找到一个关系来替换关系对。为了最大化推论的置信度，我们选择具有最低熵的关系对作为每一步的最优关系对。

学习用单个关系替换关系对的概率。 给定推导关系路径的顺序，下一步是学习 𝑞(𝑟_ℎ |𝑟_𝑖, 𝑟_𝑗 ) 来递归地减少关系路径。 𝑞(𝑟_ℎ = 𝑟_𝑘 |𝑟_𝑖, 𝑟_𝑗 ) 可以通过多层感知器 (MLP) 分类器进行近似。 MLP 分类器 𝑓_𝜃 (r_i, r_j) 是一个带有参数 𝜃 的两层全连接神经网络。它将谓词 𝑟_𝑖、𝑟_𝑗 的嵌入作为输入，并输出它们可以被 KG 中的每个关系加上“空”谓词（即未知关系）替换的概率。考虑到 𝑞(𝑟_ℎ |𝑟_𝑖, 𝑟_𝑗 ) 遵循分类分布，MLP 分类器使用 softmax 作为最后一层的激活函数。使用函数 𝑓𝜃 (rk, rb3 ) 来近似 𝑞(𝑟ℎ |𝑟𝑘, 𝑟3)，我们重写式（1）中的公式。 (8) 为：
在这里插入图片描述
从公式中可以看出，关系对𝑟_𝑏1，𝑟_𝑏2可以用KG中的每个关系以不同的概率替换（即𝑞（𝑟_𝑘 |𝑟_𝑏1，𝑟_𝑏2））。将所有这些概率纳入计算中以模拟复杂的逻辑推导具有重要意义。例如，给定规则体 hasAunt(𝑥, 𝑧) ∧ hasSister(𝑧, 𝑦)，hasMother(𝑥, 𝑦) 和 hasAunt(𝑥, 𝑦) 都可以导出为规则头。然而，这会造成巨大的计算负担，因为还需要为 KG 中的每个谓词 𝑟_𝑘 计算 𝑓_𝜃 (r_k, r_b3 )（即总共 |𝑅| +1）。为了减少计算负担，我们建议用 𝑓𝜃(, rb3 ) 来近似在这里插入图片描述，其中，
我们可以观察到r~ 是一个“加权平均”表示，它是通过“软”地添加KG中所有谓词𝑟_𝑘的表示来学习的。使用r~ ，我们显着减少了计算负担。

3.2.3 接近比率预测器。

虽然我们可以按照逻辑推导将关系路径简化为单个头关系，但由于现实世界 KG 的稀疏性，这种头关系可能并不总是能够被观察到。为了弥合遵循逻辑规则的“理想预测”和“真实观察”之间的差距，提出了闭合比率预测器来预测路径将闭合的比率。模型 𝑝 (𝑟_𝑡 |𝑟_ℎ) 中引入了两层全连接神经网络 (MLP)。特别地，它使用ReLU作为第一层的激活函数，并添加sigmoid作为第二层的激活函数。关系路径编码器学习到的“加权平均值”r最后一步和嵌入 r_t 作为输入来决定接近率。

3.2.4 模型训练

本节讨论 RLogicz 的训练过程。我们首先介绍我们提出的用于训练数据生成的闭合路径采样器。然后我们给出训练关系路径编码器和接近比率预测器的目标函数。

用于生成训练数据的闭合路径采样器。 我们没有枚举 KG 中的所有闭合路径，而是利用闭合路径采样器仅对闭合路径的一小部分进行采样来训练模型。我们提出了一种基于随机游的过程来有效地采样闭合路径。形式上，给定源实体 𝑥₀，我们模拟固定长度 𝑛 的随机游走。让 𝑥_𝑖 表示步行中的第 𝑖 个节点。节点𝑥_𝑖由以下分布生成：
在这里插入图片描述
其中 |N(𝑒_𝑗 )|是实体 𝑒_𝑗 的邻居大小。与随机游走不同的是，每次采样下一个节点𝑥_𝑖后，我们都会添加KG中所有可以直接连接𝑥₀和𝑥_𝑖的边来构造闭合路径。

训练关系路径编码器的目标函数。 关系路径编码器的目标是找到一个头关系𝑟_ℎ来替换关系路径r_b。每个采样的闭合路径都可以被视为一个正例，其目标关系给出了头关系𝑟ℎ的基本事实。负面例子可以通过破坏正面例子来生成。请注意，KG 在 开放世界假设 (OWA) 下运行。

开放世界假设（Open-world assumption）是一种在知识表示和推理领域中使用的假设。它指的是对于未知事实的存在性不做任何假设，即假设世界中的知识是不完备的，并且没有提前定义的知识缺失或不确定性的事实可以存在。

KG 中未包含的陈述不一定是错误的。这只是未知的。我们不能假设负面例子一定是错误的，而只能推断它们比正面例子更无效。为了使正例的得分高于负例的得分，我们采用成对的基于边缘的排名损失函数来学习𝑞(𝑟_𝑘 |r_b)。
在这里插入图片描述
其中 [𝑥]₊ = max{0, 𝑥} 和评分函数 𝑠 (·) 可以由关系路径编码器参数化。 𝛾 > 0 是分隔正负闭合路径的边际超参数。为了减少随机性的影响，我们为每个正闭合路径采样多个负示例。我们将闭合路径 (𝑟_ℎ, r_b) 的负样本集表示为 N(𝑟_ℎ, r_b)，它是通过用从关系集 𝑅 中随机采样的关系替换闭合路径 (𝑟_ℎ, r_b) 的头关系来构造的：
在这里插入图片描述
用于训练接近比率预测器的目标函数。 闭合比率预测器通过预测路径 r_b 将闭合的比率，弥合了遵循逻辑规则的“理想预测”和“真实观察”之间的差距。 KG中的每条闭合路径都可以被视为正例，而任何关系都不能闭合的路径则被视为负例。学习 𝑝 (𝑟_𝑡 |𝑟_ℎ) 的训练目标可以表示为二元交叉熵损失：
在这里插入图片描述
其中 P 仅存储正例，N 仅存储负例。 𝑟_ℎ 是替换关系路径编码器学习到的关系路径 r_b 的头。

3.3 规则提取

为了从 RLogic 中恢复逻辑规则，当模型完成训练时，我们计算规则空间中每个规则 𝛿 的分数 𝑠 (𝑟_ℎ, r_b)。与大多数现有方法只能对以头关系为条件的规则进行排名不同，我们的方法可以对规则进行全局排名。有了这样的分数，我们就可以选择最重要的规则来解释整个KG，而不是推断某种关系。提取规则的详细过程如下所示。给定一个候选规则 (𝑟_ℎ, r_b)，我们根据𝑞(𝑟_ℎ |𝑟_𝑖, 𝑟_𝑗) 递归合并路径 rb 中的关系对，将规则体 rb 简化为单个头 𝑟_ℎ。每一步，都会选择熵最小的关系对 (𝑟_𝑖, 𝑟_𝑗)，并根据方程（12）用中间表示 ∼r 替换。推导结束后，我们得到向量 [𝑞(𝑟₀|r_b), 𝑞(𝑟₁|r_b), 。。。 , 𝑞(𝑟|𝑅 | |r_b)] 其中 𝑞(𝑟𝑘 |rb) 是规则 (𝑟_𝑘, r_b) 的分数。得分最高的前𝑘规则将被选为学习规则。
在这里插入图片描述