Reasoning on Graphs: Faithful and Interpretable Large Language Model Reasoning

本文介绍了一种新的方法RoG,通过规划-检索-推理框架,使大型语言模型与知识图谱协同工作,解决LLM的幻觉和知识缺乏问题,实现在KG推理任务上的高性能和可解释性。
摘要由CSDN通过智能技术生成

论文笔记:《Reasoning on Graphs:忠实可解释的大语言模型推理方法》

论文地址:https://arxiv.org/abs/2310.01061

代码地址:Reasoning on Graphs(github.com)


目录

摘要

1 介绍

1.1 研究背景--存在的问题

1.2 创新点--本文工作

2 方法

2.1 图推理:规划-检索-推理

2.2 优化框架

2.3 规划模块

2.4 检索-推理模块

3 实验

4 总结


摘要

大型语言模型(LLM)在复杂任务中表现出令人印象深刻的推理能力。然而,他们缺乏最新的知识,在推理过程中会产生幻觉,这可能导致不正确的推理过程,降低他们的表现和可信度。知识图(KGs)以结构化格式捕获大量事实,为推理提供了可靠的知识来源。然而,现有的基于知识图的LLM推理方法只把知识图作为事实知识库,忽视了知识图的结构信息对推理的重要性。本文在分析了现有文献的基础上,提出了一种称为图上推理(RoG)的新方法,该方法使LLM与KGs协同工作,实现忠实和可解释的推理。具体来说,本文提出了一个规划-检索-推理框架,其中RoG首先生成以KGs落地的关系路径作为忠实的规划。然后,这些规划被用于从KG中检索有效的推理路径,以便LLM进行忠实的推理。此外,RoG不仅从KGs中提取知识,通过训练提高LLM的推理能力,其允许在推理过程中与任意LLM做到无缝集成。在两个基准KGQA数据集上进行的大量实验表明,RoG在KG推理任务上实现了最先进的性能,并生成了可靠且可解释的推理结果。

1 介绍

1.1 研究背景--存在的问题

尽管 LLM 能力出色,但 LLM 经常在知识密集型任务上遇到挑战,常见的问题有输出幻觉内容和知识实时性低(知识缺乏)

幻觉(Hallucination):在生成事实文本时,生成的信息与现有来源相冲突(内在幻觉)或无法通过现有来源验证(外在幻觉)。 幻觉在现有的 LLM 中广泛存在,甚至包括 GPT-4 等最优秀的 LLM。本质上,LLM 似乎是“无意识地”在解决任务的过程中利用这些知识,缺乏对使用内部或外部知识精准控制的能力。为了缓解这个问题,现有的工作广泛使用了对齐调整策略(RLHF)。

知识实时性:对于需要使用比训练数据更新的知识的任务时,LLM 在解决这些任务时会遇到困难。为了解决这个问题,一个直接的方法是定期用新数据更新 LLM 的知识。然而,微调 LLM 的成本非常昂贵的,而且增量训练 LLM 非常可能导致灾难性遗忘问题。

 可以通过引入外部知识的方式来缓解幻觉现象,并且引入新知识。一般来说,知识增强方法可以扩展到引入结构化数据,例如知识图谱、表格和数据库,我们的讨论关注于整合知识图谱来增强 LLM 。

先前联合使用KG和LLM进行KGQA推理的工作可以大致分为两类:

(1)语义解析方法,使用LLM转换问题i,使用LLM转换问题到逻辑查询,在KG上执行,以获得答案;虽然语义解析方法可以通过利用KG上的推理来生成更准确和可解释的结果,但是由于语法和语义限制,所生成的逻辑查询通常是不可执行的并且不产生答案。

(2)检索增强的方法,从KG上检索三元组作为知识上下文,并使用LLM获得最终答案。检索增强方法更灵活,并利用LLM的推理能力。然而,他们仅将KG视为事实知识库,而忽视了其结构信息对于推理的重要性。

例如,如上图所示,一个关系路径是一系列关系“child of→has son” 可以用来推断问题“谁是贾斯汀·比伯的哥哥?”的答案。因此,必须使LLM能够直接在KG上进行推理,以实现可信和可解释的推理。

1.2 创新点--本文工作

为了缓解幻觉和缺乏知识的问题,本文提出了一种新的方法,称为图上的推理(RoG),协同LLM与KG进行忠实和可解释的推理(规划-检索-推理框架)。图上推理(RoG),包含两个组件:(1)规划模块:首先通过规划模块生成以KG为基础的关系路径作为忠实计划。

(2)检索推理模块:根据这些计划用于从KG中检索有效的推理路径,以便通过检索推理模块进行忠实的推理。这样,我们不仅可以从KG中获取最新的知识,而且还可以考虑KG结构的指导进行推理和解释。

RoG通过两项任务进行优化:

(1)规划优化,将知识从KGs提取到LLM中,生成作为规划的忠实关系路径;

(2)检索推理优化,使LLM能够根据检索到的路径进行忠实的推理,并生成可解释的结果。

2 方法

2.1 图推理:规划-检索-推理

图上推理(RoG)的总体框架。1)给定一个问题,首先提示LLM生成几个关系路径,这些路径以KG为基础的。2)然后,使用计划从KG检索推理路径。3)最后,根据检索到的推理路径进行忠实推理,并生成具有可解释性的答案。橙色和红色矩形分别表示问题和答案中提到的实体。

关系路径捕捉实体之间的语义关系,将关系路径视为规划,可以确保规划以KGs为基础,LLM能够对图进行忠实和可解释的推理。此外,与动态更新的实体相比,KGs中的关系更稳定。用关系路径,总是可以从KGs中检索最新的知识进行推理。

将RoG公式化为一个优化问题,该问题旨在通过生成关系路径z作为规划,最大限度地提高从知识图G推理答案的概率。

2.2 优化框架

尽管将关系路径生成为规划具有优势,但LLM对KG中包含的关系一无所知。因此,LLM不能直接生成以KGs为基础的关系路径。此外,LLM可能无法正确理解推理路径并由此进行推理。为了解决这些问题,设计两个指令调优任务:

(1)规划优化:目标是将知识从KGs提取到LLM中,生成作为规划的忠实关系路径。这个使用关系路径Q(z)的后验分布最小化KL发散来实现,该后验分布可以通过KGs中的有效关系路径来近似。

(2)检索-推理优化:目标是使LLM能够根据检索的推理路径进行推理。对于检索-推理模块,遵循FiD框架在多个检索的推理路径上进行推理。RoG的最终目标函数是规划优化和检索-推理优化的结合。这里对规划和推理都采用了相同的LLM,是在两个指令调优任务上联合训练的,即(规划和检索-推理)。

2.3 规划模块

规划模块旨在生成忠实关系路径作为回答问题的规划。为了利用LLM的指令跟从能力,可设计一个简单的指令模板,提示LLM生成关系路径,其中<Question>表示问题q。:

Please generate a valid relation path that can be helpful for answering the following question:<Question>

问题与指令模板一起被馈送到LLM中以生成关系路径,该关系路径在结构上被格式化为句子,其中<PATH>, <SEP>, </PATH>分别是表示关系路径的开始、分隔符和结束的特殊标记。: 

z = <PATH> r1 <SEP> r2 <SEP> . . . <SEP> rl </PATH> 

2.4 检索-推理模块

 给定问题q和作为规划z的关系路径,检索模块旨在从KG图G检索这个推理路径wz。检索过程包括在G中查找路径,其从问题实体eq开始并遵循关系路径z。采用一个约束的广度优先搜索(BFS)来检索来自KGs的推理路径wz。实验中,所有检索的路径都用于推理。

算法伪代码如下所示:首先用问题Tq的实体初始化当前推理路径Q的队列(第3-5行);然后添加连接到队列中实体的三元组来迭代扩展Q中的每个推理路径,该三元组遵循关系路径中的关系(第11-19行);扩展推理路径,直到长度等于关系路径的长度;扩展的推理路径添加到集合Wz中作为最终结果(第8-10行)。

 尽管可以利用检索的推理路径,直接投票多数方法获得答案。但是检索的推理路径可能是含噪的和与问题无关的,从而导致错误的答案。因此,提出了一个推理模块来探索LLM的一种能力,即识别重要推理路径并以此回答问题。推理模块采用问题q和一组推理路径Wz来生成答案a同样设计一个推理指令提示,引导LLM根据检索的推理路径Wz进行推理。其中Examples表示几个人工注释的示例,用于演示解释过程。<Reasoning Paths>表示检索到的推理路径Wz,其被格式化为一系列结构句子:e0 → r1 → e1 → · · · → rl → el、e0 → r1 → e1 → · · · → rl → el.

3 实验

数据集:两个benchmark KGQA 数据集:WebQuestionSP (WebQSP) 和 Complex WebQuestion(CWQ)。Freebase 是这两个数据集的背景知识图谱,包含大约 8800 万个实体、20000 个关系和 1.26 亿个三元组。

基线:将RoG与5类21个基线方法进行了比较:1)基于嵌入的方法。2)增强检索的方法。3)语义解析方法。4)LLM。以及5)LLM+KGs方法。

Embedding: 基于 Embedding 方法将实体和关系嵌入表征空间,并设计特殊的模型架构来推理答案。

Retrieval: 从知识图谱中检索相关事实以提高推理性能。

Semantic Parsing: 将问题解析为结构查询(例如 SQL),查询引擎可以执行该查询来获取答案。

评估指标:Hits@1和F1作为评估指标。Hits@1测量前1个预测答案正确的问题的比例。由于一个问题可能对应多个答案,因此F1考虑所有答案的覆盖率,从而平衡预测答案的精确度和召回率。 

部署:LLaMA2-Chat-7B 作为 LLM 主干,在 WebQSP 和 CWQ 以及 Freebase 的训练分割上进行了 3 个 epochs 的指令微调。使用 beam-search 为每个问题生成 3 个关系路径。批量处理大小设置为4,学习率设置为2e-5。用余弦的学习速率调度器策略,预热比率设置为0.03。在 2 块 A100-80G GPU 上进行 38 小时的训练。在推理过程中,首先采用LLM生成概率最高的top-K关系路径作为规划。然后,采用前面的BFS算法来检索推理路径,这些推理路径被输入LLM来推理最终答案。对于LLM基线,用零样本提示来进行KGQA,直接要求LLM回答问题。

实验结果:输出样例

 该方法在两个数据集的大多数指标上实现了 SOTA。

消融实验:

 插拔式规划模块:评估在推理过程中将 RoG 的 planning 模块与不同的 LLM 集成以提高其性能的有效性。具体来说,首先采用 RoG的 planning 模块来生成关系路径,并将检索到的推理路径实例作为上下文输入到不同的LLM中进行推理。(结果表明RoG的规划模块可以与其他LLM无缝集成,以提高其性能,而无需重新训练。)

4 总结

RoG允许LLM访问最新的知识,同时基于图上的忠实计划进行推理。RoG不仅通过训练从KG中提取知识来增强LLM的推理能力,而且还可以在推理过程中与任何LLM无缝集成。在两个KGQA标准数据集上的大量实验证明了RoG在推理能力和可解释性方面的优越性。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值