来源:开放知识图谱
本文共6300字,建议阅读10分钟
本文介绍了通过复杂逻辑假设生成推进知识图谱中的溯因推理过程。
笔记整理:米尔扎提·阿力木,天津大学硕士,研究方向为自然语言处理
论文链接:https://arxiv.org/abs/2312.15643
发表会议:AAAI 2025
1. 引言
溯因推理在各个研究领域中为观察到的现象生成解释性假设方面发挥着至关重要的作用。它是一种应用广泛的强大工具。例如,在认知神经科学中,反向推理作为溯因推理的一种形式,对于根据观察到的大脑激活模式推断潜在的认知过程至关重要。同样,在临床诊断中,溯因推理被认为是研究因果关系的关键方法。此外,溯因推理是人类、动物和计算机进行假设生成过程的基础。其意义不仅限于这些特定应用,还涵盖了广泛的研究领域。在本文中,我们专注于基于结构化知识(具体来说是知识图谱)的溯因推理。
典型的知识图谱(KG)以图结构存储有关实体(如人、地点、物品)及其关系的信息。同时,KG 推理是利用知识图谱推断或推导新信息的过程。近年来,人们针对知识图谱提出了各种逻辑推理任务,例如回答以逻辑结构表达的复杂查询,或进行逻辑规则挖掘。
然而,KG 推理的溯因视角至关重要却尚未得到充分探索。以图 1 中的第一个例子为例,观察O1描述了一个用户在社交媒体平台上关注的五位名人。社交网络服务提供商希望利用结构化知识来解释用户的观察行为。通过利用像这样包含这些个人基本信息的知识图谱,可以推导出一个复杂的逻辑假设H1,表明他们都是出生在洛杉矶的演员和编剧。在图 1 的第二个例子中,与用户在电子商务平台上的互动O2相关,结构化假设H2可以解释用户对2010年发布的非手机类苹果产品的兴趣。第三个例子涉及医学诊断,呈现了三种疾病O3,相应的假设H3表明它们是具有症状V1的疾病V?,并且V1可以被 Panadol 缓解。从一般角度来看,这些问题展示了基于知识图谱的溯因推理如何寻找能够最好地解释给定观察结果的假设。
解决这个推理任务的一种直接方法是采用基于搜索的方法,根据给定的观察结果探索潜在的假设。然而,这种方法面临两个重大挑战。第一个挑战源于知识图谱(KGs)的不完整性,因为基于搜索的方法严重依赖完整信息的可用性。在实践中,KGs 中缺失的边会对基于搜索的方法的性能产生负面影响。第二个挑战来自逻辑结构假设的复杂性。当处理大量候选假设的组合时,基于搜索的方法的搜索空间会呈指数级增长。因此,基于搜索的方法难以有效且高效地处理需要复杂假设来解释的观察结果。
为了克服这些挑战,我们提出了一种在监督学习框架内利用生成模型为给定观察结果生成逻辑假设的解决方案。我们的方法包括从观察到的知识图谱中采样假设 - 观察对,并使用教师强制方法训练基于 Transformer 的生成模型。然而,监督训练的一个潜在局限性是它主要捕捉结构相似性,在应用于未见的观察结果时不一定能保证更好的解释。为了解决这个问题,我们引入了一种称为基于知识图谱的强化学习(RLF-KG)的技术。它利用近端策略优化(PPO)(Schulman 等人,2017)来最小化观察证据与从生成的假设中得出的结论之间的差异。通过结合强化学习技术,我们的方法旨在直接提高生成假设的解释能力,并确保在推广到未见的观察结果时其有效性。
我们在三个知识图谱 FB15k-237、WN18RR(Toutanova 和 Chen, 2015)和 DBpedia50上评估所提出方法的有效性和效率。结果一致表明,在所有三个数据集上,通过两个评估指标衡量,我们的方法优于监督生成基线和基于搜索的方法。我们的贡献可以总结如下:
我们引入了复杂逻辑假设生成任务,旨在识别能够最好地解释给定观察集的逻辑假设。这个任务可以看作是基于知识图谱的一种溯因推理形式。
为了解决知识图谱不完整性和逻辑假设复杂性带来的挑战,我们提出了一种基于生成的方法。这种方法有效地处理了这些困难,并提高了生成假设的质量。
此外,我们开发了基于知识图谱的强化学习(RLF-KG)技术。通过结合知识图谱的反馈,RLF-KG 进一步改进了假设生成模型。它最小化了观察结果与生成假设的结论之间的差异,从而获得更准确和可靠的结果。
2. 问题表述
在这个任务中,知识图谱表示为G=(V, R),其中V是顶点集,R是关系类型集。每个关系类型r是一个函数:V ×V to{ true, false },当(r(u, v)为真时,表示在图中存在从顶点u到顶点v的类型为r的有向边(u, r, v),否则为假。
我们采用知识图谱的开放世界假设,将缺失的边视为未知而非假。推理模型只能访问观察到的知识图谱G,而真实的知识图谱是隐藏的,并且包含观察到的图G。
溯因推理是一种逻辑推理,涉及进行合理猜测以推断观察结果最可能的原因。在这项工作中,我们专注于知识图谱背景下的一种特定类型的溯因推理。我们首先介绍在此背景下的一些概念。
观察是V中的一组实体。图G=(V, R)上的逻辑假设H被定义为变量顶点V?的一阶逻辑形式的谓词,包括存在量词、与(∧)、或(∨)和非(¬)。假设总是可以写成析取范式:
下标1 G表示假设是基于给定图G制定的。这意味着假设中的所有实体和关系都必须存在于G中,并且变量顶点的域是G的实体集。相同的假设H可以应用于不同的知识图谱G',前提是G'包括H中存在的实体和边。当上下文清楚或假设涉及适用于多个知识图谱(例如观察到的和隐藏的图)的一般陈述时,使用符号H而不带下标。
假设H在图G上的结论,表示为[H]G,是在G上使H成立的实体集:
假设O = {v1, v2, ..., vk}表示一个观察,G是观察到的图, G是隐藏的图。那么知识图谱中的溯因推理旨在找到图G上的假设H,使得其在隐藏图G上的结论[H]G与观察O最相似。形式上,相似性使用 Jaccard 指数来量化,定义为:
换句话说,目标是找到一个假设H,使 Jaccard(HG, O)最大化。
3. 基于RLF-KG的假设生成
我们的方法称为基于知识图谱的强化学习(RLF-KG),如图 4 所示,包括以下步骤:
(1)从知识图谱中随机采样观察 - 假设对。
(2)使用这些对训练一个生成模型,从观察中生成假设。
(3)使用 RLF-KG 增强生成模型,利用强化学习最小化观察结果与生成假设之间的差异。
3.1 采样观察 - 假设对
在第一步中,我们从观察到的训练知识图谱中随机采样假设。这个过程首先随机选择一个假设,然后在训练图上进行图搜索以得出其结论,该结论随后被视为与该假设对应的观察。假设采样算法的详细信息在附录 D 中提供。
然后,我们将假设和观察都转换为适合生成模型的序列。对于观察,我们标准化元素的顺序,确保相同观察集的不同排列产生相同的输出。观察中的每个实体都表示为一个唯一的标记,如 [Apple] 和 [Phone],如图 2 所示,并与一个嵌入相关联。
由于每个假设都可以表示为一个有向无环图,对于假设,我们使用一种受基于动作的解析启发的表示方法,类似于其他逻辑推理研究中的方法。这涉及使用深度优先搜索算法生成一个表示图的内容和结构的动作序列。
逻辑操作(如交集、并集和否定)分别用特殊标记 [I]、[U] 和 [N] 表示,遵循先前的工作。关系和实体也同样被视为唯一的标记,例如 [Brand] 和 [Apple]。
3.2 假设生成模型的监督训练
在第二步中,我们使用采样得到的对训练一个生成模型。设o = [o1, o2, ..., om)表示观察的标记序列,h = [h1,h2,...,hn]表示假设的标记序列。生成模型在这个示例上的损失基于标准的序列建模损失:
我们使用标准的 Transformer 来实现条件生成模型,采用两种不同的方法。第一种方法遵循 Vaswani 等人(2017)描述的编码器 - 解码器架构,其中观察标记输入到 Transformer 编码器中,而移位后的假设标记输入到 Transformer 解码器中。第二种方法涉及将观察和假设标记连接起来,并使用仅解码器的 Transformer 来生成假设。根据这些架构的设置,我们使用监督训练技术训练模型。
此外,算法 3 有助于从动作序列重建图,作为假设的去标记化过程。
3.3 基于知识图谱反馈的强化学习(RLF-KG)
在监督训练过程中,模型学习生成与参考假设结构相似的假设。然而,与参考答案的结构相似性更高并不一定保证在训练过程中遇到未见观察时能够生成逻辑解释。为了解决这个限制,在第三步中,我们结合强化学习和知识图谱反馈(RLF-KG)来增强训练好的条件生成模型。设G-train表示观察到的训练图,h是假设标记序列,o是观察标记序列,H和o分别是相应的假设和观察。我们选择奖励为观察o与假设H在训练图G-train上的结论H{G-train}之间的 Jaccard 相似度,这是对公式 4 中溯因推理任务目标的可靠且无信息泄露的近似。形式上,奖励函数定义为:
遵循 Ziegler 等人(2020),我们将监督训练得到的训练模型视为参考模型,并使用初始化要优化的模型。然后,我们通过加入 KL 散度惩罚来修改奖励函数。这种修改旨在防止模型生成与参考模型偏差过大的假设。
为了训练模型\(\pi\),我们采用近端政策优化(PPO)算法。目标是最大化预期的修改奖励,如下所示:
其中D是训练观察分布。通过使用 PPO 和修改后的奖励函数,我们可以有效地引导模型生成在与参考模型的相似性和逻辑一致性之间取得平衡的假设:
4. 实验
我们使用三个不同的知识图谱,即 FB15k-237、DBpedia50和 WN18RR进行实验。表 1 提供了每个知识图谱中训练、评估和测试边的数量以及节点总数的概述。为了确保一致性,我们将这些知识图谱的边随机划分为三个集合 —— 训练集、验证集和测试集,比例为 8:1:1。因此,我们通过分别包含相应的边(仅训练边、训练 + 验证边、训练 + 验证 + 测试边)来构建训练图G-train、验证图G-valid和测试图G-test。
按照 3.2 节中概述的方法,我们继续采样观察和假设对。为了确保样本的质量和多样性,我们在采样过程中施加了一些约束。首先,我们将观察集的大小限制为最多 32 个元素,这一限制是为了确保观察结果易于处理。此外,对验证和测试假设也应用了特定约束。每个验证假设在结论中必须包含比训练图更多的实体,而每个测试假设在结论中必须包含比验证图更多的实体。这种实体复杂性的逐步增加确保了评估设置具有挑战性。
与之前关于 KG 推理的工作一致,我们利用十三种预定义的逻辑模式来采样假设。其中八种模式,称为存在性正一阶(EPFO)假设(1p/2p/2u/3i/ip/up/2i/pi),不涉及否定。其余五种模式是包含否定的否定假设(2in/3in/inp/pni/pin)。需要注意的是,生成的假设可能与参考假设的类型匹配,也可能不匹配。假设的结构如图 5 所示,每种假设类型抽取的样本数量可在表 5 中找到。
4.1 评估指标
Jaccard 指数:生成假设的质量主要使用 Jaccard 指数来衡量,与第 2 节中为溯因推理定义的 Jaccard 指数相同,但我们将构建的测试图G-test视为隐藏图。需要注意的是,测试图包含在训练或验证阶段未观察到的10% 的边。形式上,给定一个观察o和一个生成的假设H,我们使用图搜索算法来确定H在G-test上的结论,表示为[H]_{G-test} 。然后,用于评估的Jaccard 指标定义为:
用于量化结论\([H]_{G_{test}}\)与观察o之间的相似性。
Smatch 分数:Smatch最初是为比较语义图而设计的,但已被认为是评估复杂逻辑查询的合适指标,复杂逻辑查询可被视为一种特殊形式的语义图。在这个任务中,一个假设可以表示为一个图,例如图 2,我们可以将其转换为与语义图格式兼容的形式。附录 F 中详细描述了在假设图上计算 Smatch 分数的具体过程。直观地说,生成的假设H与参考假设H_ref之间的 Smatch 分数,表示为S(H, H_ref),量化了对应于H和H_ref的图之间的结构相似性,即两个图的节点、边以及它们上面的标签看起来有多相似。
4.2 实验细节
在本实验中,我们使用两种 Transformer 结构作为生成模型的基础。对于编码器 - 解码器 Transformer 结构,我们使用三个编码器层和三个解码器层。每层有八个注意力头,隐藏层大小为 512。需要注意的是,由于我们认为观察集中实体的顺序无关紧要,因此禁用了输入观察序列的位置编码。对于仅解码器结构,我们使用六个层,其他超参数相同。在监督训练过程中,我们使用 AdamW 优化器并通过网格搜索来寻找超参数。对于编码器 - 解码器结构,学习率为 0.0001,FB15k - 237、WN18RR 和 DBpedia 的批量大小分别为 768、640 和 256。对于仅解码器结构,学习率为 0.00001,FB15k - 237、WN18RR 和 DBpedia 的批量大小分别为 256、160 和 160,并进行 100 步的线性热身。在强化学习过程中,我们使用动态调整惩罚系数 β。
4.3 实验结果与讨论
我们通过比较模型在使用 RLF - KG 前后的 Jaccard 指标来验证 RLF - KG 的有效性。表 2 展示了在 FB15k - 237、WN18RR 和 DBpedia50 上十三种假设类型的性能。它说明了观察与从测试图生成的假设的结论之间的 Jaccard 指数。在每个数据集上,对编码器 - 解码器和仅解码器 Transformer 在完全监督训练下进行评估。此外,还报告了模型与基于知识图谱反馈的强化学习(RLF - KG)结合时的性能。
RLF - KG 后的性能提升:我们注意到 RLF - KG 在三个数据集上始终提高了假设生成的质量,改进了编码器 - 解码器和仅解码器模型。这可以解释为 RLF - KG 能够将知识图谱信息整合到生成模型中,不再仅仅生成与参考假设相似的假设。此外,在 RLF - KG 训练后,编码器 - 解码器模型超过了仅解码器结构的 Transformer 模型。这是由于任务的性质,从观察集中生成标记序列不需要观察集的顺序。图 6 通过展示 PPO 过程中奖励的增加补充了上述说法。我们还请读者参考附录 K,其中有定性示例展示了对于相同观察生成的假设的改进。
在 PPO 中添加结构奖励:我们探索了将结构相似性纳入 PPO 训练中使用的奖励函数的潜在好处。虽然 RLF - KG 最初依赖于 Jaccard 指数,但我们考虑添加 Smatch 分数,这是一种衡量生成假设与采样假设之间结构差异的指标。我们进行了额外的实验,将\(S(H, H_{ref})\)作为奖励函数中的一个额外项。结果如表 3 所示,表明通过纳入结构奖励,模型确实可以生成在结构上更接近参考假设的假设。然而,Jaccard 分数显示,随着结构信息的加入,整体性能与原始奖励函数相当或略差。这是因为添加 Smatch 分数往往会导致生成模型根据图级别的相似性拟合甚至可能过度拟合训练数据,限制了其对未见测试图的泛化能力。而 Jaccard 奖励(公式 7)捕获的度量更接近我们任务的目标。按查询类型划分的详细 Smatch 分数可在附录 G 中找到。
搜索方法之间的比较:由于此任务的搜索算法固有地具有高复杂性,我们选择相对简单的暴力搜索(算法 4)作为基于搜索的基线。对于每个观察,该算法在训练图中探索所有潜在的 1p 假设,并选择在训练图上 Jaccard 相似度最高的假设。尽管它简单且复杂度与边的数量呈线性关系,但该算法比我们的方法需要更多的时间,更不用说其他更复杂的启发式算法了。在此选择之后,我们比较了基于生成的方法和暴力搜索算法的推理时间和性能。表 4 突出了暴力搜索由于其高复杂性不适合扩展的问题。相比之下,基于生成的方法表现出显著更快的性能。此外,生成方法不仅在 Jaccard 性能上优于基于搜索的方法,在 Smatch 性能上也有显著提升。暴力搜索相对较高的 Jaccard 分数归因于其在搜索过程中固有地访问 Jaccard 的近似值。由于图分割的性质,对于 1p 查询,使用训练图对测试图上的 Jaccard 进行近似是相当准确的,这提高了平均分数。详细的 Jaccard 分数在附录 H 中给出。然而,暴力搜索在处理更复杂类型的查询时存在困难。
5. 总结
总之,本文引入了溯因逻辑知识图谱推理任务。同时,本文提出了一种基于生成的方法,通过生成逻辑假设来解决知识图谱不完整性和推理效率问题。此外,本文展示了我们提出的基于知识图谱的强化学习(RLF - KG)通过利用知识图谱的反馈来增强假设生成模型的有效性。
局限性:本文提出的方法和技术在一组特定的知识图谱上进行了评估。目前尚不清楚这些方法在具有不同特征或领域的其他 KG 上的表现如何。同时,知识图谱可能非常庞大且不断演变,我们的方法尚未能够解决知识演变的动态性问题,例如自动进行知识编辑。需要注意的是,这些局限性不应削弱这项工作的重要性,而应作为未来研究和改进的方向。
编辑:王菁
关于我们
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU