Reasoning on Graphs: Faithful and Interpretable Large Language Model Reasoning

最新推荐文章于 2024-10-15 01:20:33 发布

哦莫莫

最新推荐文章于 2024-10-15 01:20:33 发布

阅读量1.5k

点赞数 19

文章标签：语言模型人工智能自然语言处理知识图谱

本文链接：https://blog.csdn.net/m0_52336225/article/details/136581800

版权

本文介绍了一种新的方法RoG，通过规划-检索-推理框架，使大型语言模型与知识图谱协同工作，解决LLM的幻觉和知识缺乏问题，实现在KG推理任务上的高性能和可解释性。

摘要由CSDN通过智能技术生成

论文笔记：《Reasoning on Graphs:忠实可解释的大语言模型推理方法》

论文地址：https://arxiv.org/abs/2310.01061

代码地址：Reasoning on Graphs(github.com)

摘要

大型语言模型（LLM）在复杂任务中表现出令人印象深刻的推理能力。然而，他们缺乏最新的知识，在推理过程中会产生幻觉，这可能导致不正确的推理过程，降低他们的表现和可信度。知识图（KGs）以结构化格式捕获大量事实，为推理提供了可靠的知识来源。然而，现有的基于知识图的LLM推理方法只把知识图作为事实知识库，忽视了知识图的结构信息对推理的重要性。本文在分析了现有文献的基础上，提出了一种称为图上推理（RoG）的新方法，该方法使LLM与KGs协同工作，实现忠实和可解释的推理。具体来说，本文提出了一个规划-检索-推理框架，其中RoG首先生成以KGs落地的关系路径作为忠实的规划。然后，这些规划被用于从KG中检索有效的推理路径，以便LLM进行忠实的推理。此外，RoG不仅从KGs中提取知识，通过训练提高LLM的推理能力，其允许在推理过程中与任意LLM做到无缝集成。在两个基准KGQA数据集上进行的大量实验表明，RoG在KG推理任务上实现了最先进的性能，并生成了可靠且可解释的推理结果。

1 介绍

1.1 研究背景--存在的问题

尽管 LLM 能力出色，但 LLM 经常在知识密集型任务上遇到挑战，常见的问题有输出幻觉内容和知识实时性低（知识缺乏）。

幻觉（Hallucination）：在生成事实文本时，生成的信息与现有来源相冲突（内在幻觉）或无法通过现有来源验证（外在幻觉）。幻觉在现有的 LLM 中广泛存在，甚至包括 GPT-4 等最优秀的 LLM。本质上，LLM 似乎是“无意识地”在解决任务的过程中利用这些知识，缺乏对使用内部或外部知识精准控制的能力。为了缓解这个问题，现有的工作广泛使用了对齐调整策略（RLHF）。

知识实时性：对于需要使用比训练数据更新的知识的任务时，LLM 在解决这些任务时会遇到困难。为了解决这个问题，一个直接的方法是定期用新数据更新 LLM 的知识。然而，微调 LLM 的成本非常昂贵的，而且增量训练 LLM 非常可能导致灾难性遗忘问题。

可以通过引入外部知识的方式来缓解幻觉现象，并且引入新知识。一般来说，知识增强方法可以扩展到引入结构化数据，例如知识图谱、表格和数据库，我们的讨论关注于整合知识图谱来增强 LLM 。

先前联合使用KG和LLM进行KGQA推理的工作可以大致分为两类：

（1）语义解析方法，使用LLM转换问题i，使用LLM转换问题到逻辑查询，在KG上执行，以获得答案;虽然语义解析方法可以通过利用KG上的推理来生成更准确和可解释的结果，但是由于语法和语义限制，所生成的逻辑查询通常是不可执行的并且不产生答案。

（2）检索增强的方法，从KG上检索三元组作为知识上下文，并使用LLM获得最终答案。检索增强方法更灵活，并利用LLM的推理能力。然而，他们仅将KG视为事实知识库，而忽视了其结构信息对于推理的重要性。

例如，如上图所示，一个关系路径是一系列关系“child of→has son” 可以用来推断问题“谁是贾斯汀·比伯的哥哥？”的答案。因此，必须使LLM能够直接在KG上进行推理，以实现可信和可解释的推理。

1.2 创新点--本文工作

为了缓解幻觉和缺乏知识的问题，本文提出了一种新的方法，称为图上的推理（RoG），协同LLM与KG进行忠实和可解释的推理（规划-检索-推理框架）。图上推理（RoG），包含两个组件：（1）规划模块：首先通过规划模块生成以KG为基础的关系路径作为忠实计划。

（2）检索推理模块：根据这些计划用于从KG中检索有效的推理路径，以便通过检索推理模块进行忠实的推理。这样，我们不仅可以从KG中获取最新的知识，而且还可以考虑KG结构的指导进行推理和解释。

RoG通过两项任务进行优化：

（1）规划优化，将知识从KGs提取到LLM中，生成作为规划的忠实关系路径;

（2）检索推理优化，使LLM能够根据检索到的路径进行忠实的推理，并生成可解释的结果。

2 方法

2.1 图推理：规划-检索-推理

图上推理（RoG）的总体框架。1)给定一个问题，首先提示LLM生成几个关系路径，这些路径以KG为基础的。2)然后，使用计划从KG检索推理路径。3)最后，根据检索到的推理路径进行忠实推理，并生成具有可解释性的答案。橙色和红色矩形分别表示问题和答案中提到的实体。

关系路径捕捉实体之间的语义关系，将关系路径视为规划，可以确保规划以KGs为基础，LLM能够对图进行忠实和可解释的推理。此外，与动态更新的实体相比，KGs中的关系更稳定。用关系路径，总是可以从KGs中检索最新的知识进行推理。

将RoG公式化为一个优化问题，该问题旨在通过生成关系路径z作为规划，最大限度地提高从知识图G推理答案的概率。

2.2 优化框架

尽管将关系路径生成为规划具有优势，但LLM对KG中包含的关系一无所知。因此，LLM不能直接生成以KGs为基础的关系路径。此外，LLM可能无法正确理解推理路径并由此进行推理。为了解决这些问题，设计两个指令调优任务：

（1）规划优化：目标是将知识从KGs提取到LLM中，生成作为规划的忠实关系路径。这个使用关系路径Q（z）的后验分布最小化KL发散来实现，该后验分布可以通过KGs中的有效关系路径来近似。

（2）检索-推理优化：目标是使LLM能够根据检索的推理路径进行推理。对于检索-推理模块，遵循FiD框架在多个检索的推理路径上进行推理。RoG的最终目标函数是规划优化和检索-推理优化的结合。这里对规划和推理都采用了相同的LLM，是在两个指令调优任务上联合训练的，即（规划和检索-推理）。

2.3 规划模块

规划模块旨在生成忠实关系路径作为回答问题的规划。为了利用LLM的指令跟从能力，可设计一个简单的指令模板，提示LLM生成关系路径，其中<Question>表示问题q。：

Please generate a valid relation path that can be helpful for answering the following question:<Question>

问题与指令模板一起被馈送到LLM中以生成关系路径，该关系路径在结构上被格式化为句子，其中<PATH>, <SEP>, </PATH>分别是表示关系路径的开始、分隔符和结束的特殊标记。：

z = <PATH> r1 <SEP> r2 <SEP> . . . <SEP> rl </PATH>

2.4 检索-推理模块

给定问题q和作为规划z的关系路径，检索模块旨在从KG图G检索这个推理路径wz。检索过程包括在G中查找路径，其从问题实体eq开始并遵循关系路径z。采用一个约束的广度优先搜索（BFS）来检索来自KGs的推理路径wz。实验中，所有检索的路径都用于推理。

算法伪代码如下所示：首先用问题Tq的实体初始化当前推理路径Q的队列（第3-5行）；然后添加连接到队列中实体的三元组来迭代扩展Q中的每个推理路径，该三元组遵循关系路径中的关系（第11-19行）；扩展推理路径，直到长度等于关系路径的长度；扩展的推理路径添加到集合Wz中作为最终结果（第8-10行）。

尽管可以利用检索的推理路径，直接投票多数方法获得答案。但是检索的推理路径可能是含噪的和与问题无关的，从而导致错误的答案。因此，提出了一个推理模块来探索LLM的一种能力，即识别重要推理路径并以此回答问题。推理模块采用问题q和一组推理路径Wz来生成答案a同样设计一个推理指令提示，引导LLM根据检索的推理路径Wz进行推理。其中Examples表示几个人工注释的示例，用于演示解释过程。<Reasoning Paths>表示检索到的推理路径Wz，其被格式化为一系列结构句子：e0 → r1 → e1 → · · · → rl → el、e0 → r1 → e1 → · · · → rl → el.

3 实验

数据集：两个benchmark KGQA 数据集：WebQuestionSP (WebQSP) 和 Complex WebQuestion（CWQ）。Freebase 是这两个数据集的背景知识图谱，包含大约 8800 万个实体、20000 个关系和 1.26 亿个三元组。

基线：将RoG与5类21个基线方法进行了比较：1）基于嵌入的方法。2）增强检索的方法。3）语义解析方法。4）LLM。以及5）LLM+KGs方法。

Embedding: 基于 Embedding 方法将实体和关系嵌入表征空间，并设计特殊的模型架构来推理答案。

Retrieval: 从知识图谱中检索相关事实以提高推理性能。

Semantic Parsing: 将问题解析为结构查询（例如 SQL），查询引擎可以执行该查询来获取答案。

评估指标：Hits@1和F1作为评估指标。Hits@1测量前1个预测答案正确的问题的比例。由于一个问题可能对应多个答案，因此F1考虑所有答案的覆盖率，从而平衡预测答案的精确度和召回率。

部署:LLaMA2-Chat-7B 作为 LLM 主干，在 WebQSP 和 CWQ 以及 Freebase 的训练分割上进行了 3 个 epochs 的指令微调。使用 beam-search 为每个问题生成 3 个关系路径。批量处理大小设置为4，学习率设置为2e-5。用余弦的学习速率调度器策略，预热比率设置为0.03。在 2 块 A100-80G GPU 上进行 38 小时的训练。在推理过程中，首先采用LLM生成概率最高的top-K关系路径作为规划。然后，采用前面的BFS算法来检索推理路径，这些推理路径被输入LLM来推理最终答案。对于LLM基线，用零样本提示来进行KGQA，直接要求LLM回答问题。

实验结果：输出样例

该方法在两个数据集的大多数指标上实现了 SOTA。

消融实验：

插拔式规划模块：评估在推理过程中将 RoG 的 planning 模块与不同的 LLM 集成以提高其性能的有效性。具体来说，首先采用 RoG的 planning 模块来生成关系路径，并将检索到的推理路径实例作为上下文输入到不同的LLM中进行推理。（结果表明RoG的规划模块可以与其他LLM无缝集成，以提高其性能，而无需重新训练。）

4 总结

RoG允许LLM访问最新的知识，同时基于图上的忠实计划进行推理。RoG不仅通过训练从KG中提取知识来增强LLM的推理能力，而且还可以在推理过程中与任何LLM无缝集成。在两个KGQA标准数据集上的大量实验证明了RoG在推理能力和可解释性方面的优越性。

哦莫莫

关注

19
点赞
踩
28

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫