NeurIPS 24|Plan-on-Graph:LLM进行知识图谱自纠正适应性规划

Introduction

大语言模型(Large Language Models,LLMs)在各种自然语言处理和数据科学任务中表现出色,如问题回答、文本生成、推荐系统和特定领域应用。利用先进的深度学习技术和大量已有的文本数据来理解和生成流畅连贯的语言。尽管LLM在许多应用中取得了成功,但仍然有知识过时、幻觉和不透明决策等缺点。

直观地说,作为大规模的结构知识库,知识图谱(knowledge Graphs, KGs)提供了对大量现实世界知识的明确和可编辑的描述,这有可能成为LLM缺陷的一个补充。先前的研究设法将KG整合到LLM预训练或微调阶段。然而,这些方法主要是以黑盒方式将KG中的结构化知识压缩成LLM的参数,无法提高LLM的灵活性、可靠性和透明度。因此,一些工作尝试首先从KG中检索信息,然后将显式知识传递给LLM。在这种情况下,大型语言模型不直接参与图推理过程,使得这些方法过度依赖于KG完备性。最近,人们提出了一种KG增强LLM范式来进行图推理,该范式将大型语言模型作为一个代理来交互地探索KG上的相关实体和关系,并根据检索到的知识进行推理。例如,StructGPT和ToG预定义了在KG上探索的推理路径的宽度,并利用LLM迭代地沿着与问题相关的推理路径单向扩展,并使用这些推理路径推理答案。这种KG增强LLM的范式提供了一个机会,通过促进逐步推导,更全面地整合来自KG和LLM的知识。

然而,现有的范式可能无法规划探索许多复杂问题的正确推理路径。这些限制在于:(1)预定义路径宽度:现有范式需要手动设置KG中的推理路径宽度,但是固定宽度可能导致所有选择的关系或实体都不正确。在步骤2中,若确定路径和问题之间的相关性,由于固定最大宽度为3的限制以及围绕各自歌曲奖项的不确定性,LLM选择了最大数量的歌曲,忽略了正确的实体“Blank Space”。(2)不可逆的探索方向:现有范式中的路径探索是单向的,没有自我纠正的能力。即使路径不正确,LLM仍然会继续扩展当前不正确的路径,并导致KG上的推理失败。在第3、4步中,由于已经选择了“The Joker and The Queen”、“Shake It Off”和“Cruel Summer”,推理过程继续沿着错误的路径进行,没有找到正确的答案。(3)遗忘部分条件:在推理过程中,LLM可能会忘记问题中的部分条件,无法同时提供满足多个条件的答案。在第4步中,LLM只记住了这首歌是Taylor Swift的,而忘记了这首歌获得了美国音乐奖的条件,导致错误的答案是“Love Story”。因此,复杂问题的推理可能在很大程度上依赖于对错误推理路径的适应性探索和自我纠正。

为了解决这些限制,本文为KG增强LLM提出了一种新的自纠正自适应规划范式,称为PoG(Plan-on-Graph)。具体而言,首先将问题分解为几个子目标作为规划探索的指导,然后重复自适应探索推理路径以获取相关KG数据,更新记忆以提供动态证据进行反思,反思需要自我纠正推理路径直到得到答案的过程。在PoG中,为自适应自校正规划设计了三种机制:

(1)引导:为了更好地利用问题中的条件来指导自适应探索,利用LLM将问题分解成若干包含条件的子目标,从而有利于识别每个条件的相关路径,并具有灵活的探索宽度。

(2)记忆:存储在记忆中的信息为反思提供了历史检索和推理信息。本文记录和更新子图,为LLM提供所有检索到的实体,用于初始化新的探索和自校正路径,推理路径为大型语言模型推理保留实体之间的关系,并允许路径校正和子目标状态,使LLM能够识别每个条件的已知信息,减轻其在反思阶段的遗忘。

(3)反思:为了确定是继续还是自我纠正当前的推理路径,本文设计了一种反射机制,利用LLM来推理是否将其他实体考虑到新的探索中,并根据内存中的信息决定退回到哪些实体进行自我纠正。

Contribution

  • 本文提出了一种新的自校正大型语言模型自适应规划范式,该范式利用LLM规划推理路径的自适应宽度,并对自校正错误路径进行反思。本文将自我纠正和自适应KG探索的反射机制纳入KG增强大型语言模型的,有效地增强了大型语言模型的推理能力。

  • 本文专门为PoG设计了引导、记忆和反思机制。引导利用问题条件,通过将任务分解为包括条件在内的子目标来更好地规划适应性探索。记忆记录子图、推理路径和子目标状态,为反思提供历史检索和推理信息。反思以记忆为基础,判断是否要自我纠正推理路径,回溯到哪个实体进行新的探索。

  • 本文在CWQ、WebQSP和GrailQA这三个真实的KGQA数据集上进行了大量的实验。结果证明了本文所提出的用于KG增强大型语言模型的新型PoG范式的有效性和效率。

Preliminary

Relation Paths 关系路径为一组关系序列:,其中表示路径上的第个关系,表示路径长度。

Reasoning Paths 推理路径为KG中一条关系路径中的实例:,其中表示关系路径中的第个实体。

Knowledge Graph Question Answering (KGQA) 知识图谱问答是基于KG上一系列事实的自然语言问答任务。给定一个问题、一个知识图谱和中提到的主题实体,KGQA的目标是生成问题的答案。本文假设中提到的任何实体,答案都被标记并与中相应的实体相关联,即。

Methodology

本节将介绍用于KG增强LLM的新型自纠正自适应规划范式的技术细节,该范式名为PoG(Plan-on-Graph)。PoG由四个关键组件组成:任务分解、路径探索、记忆更新和评估。PoG首先将问题分解为几个子目标,作为规划探索的指导,然后重复自适应探索推理路径的过程,以访问相关的KG数据,更新记忆以提供历史检索和推理信息以供反思。思考自我纠正推理路径的必要性,直到找到答案。

Task Decomposition 任务分解

为了更好地利用问题查询中的条件信息,以便引导LLM在KG中进行推理路径的适应性探索。PoG利用LLM的语义分析,将问题分解为包含条件的多个子问题。这些子问题能够引导路径探索,根据不同子问题的要求灵活调整探索的宽度,更精准地识别与每个条件相关的路径,提高探索的有效性。

Path Exploration 路径探索

通过探索KG中的推理路径获取相关信息,在探索的初始阶段,首先定位推理路径的一系列初始实体,这些实体对应于给定问题提及的主题实体。这些主题实体是预先标记的并属于标注数据集。具体而言,给定问题,使用主题实体作为推理路径的初始元素,即,其中为主题实体的数量。

在接下来的迭代过程中,会继续探索与问题最相关的路径,而终止探索其他路径。以第轮迭代为例,在迭代开始前,每一个推理路径包含了个三元组,即,其中,分别是头实体、尾实体是关系。与相连。每个推理路径的长度可能有所不同,在第次迭代中,只探索与问题语义最相关的推理路径,这些推理路径是在第次迭代中被选取的。这些尾实体和关系分别表示为和,其中为集合和的大小。根据问题,利用LLM从当前实体集的邻居实体中识别出最相关实体集,并用扩展推理路径。使用LLM处理大量邻居节点复杂度较高,因此提出了适应性探索策略,该策略不受固定数量关系和实体限制,包含两个步骤,即找到相关关系并利用这些选定的关系探索实体。

Relation Exploration 关系探索。该阶段检索在所有尾实体的关系,并识别与问题和子问题最相关的关系。具体而言,首先进行搜索,以获得与中尾部实体相连的所有关系作为候选关系集。使用拓展推理路径得到候选推理路径。然后基于问题的语义信息,尾实体集,候选关系集和子问题,利用LLM从候选推理路径中选取以集合中尾关系为结尾的相关推理路径,路径数量的选取时灵活可变的。

Entity Exploration 实体探索。类似于关系探索,该阶段根据和检索邻居实体,检测与问题最相关的实体。从前述关系探索阶段,得到了拓展的推理路径集和新的尾关系集合,对于每条推理路径,执行查询,或来检索得到一个候选的实体集,其中和分别表示推理路径的尾实体和关系。当面对大量的候选实体时,本文采用了一个小规模预训练计算候选实体与召回问题之间的相似度。然后将所有的候选实体集纳入,并将该集合作为尾实体将扩展为。有了候选推理路径,利用LLM选择部分相关推理路径,这些路径以尾实体结尾。

Memory Updating 记忆更新

存储在记忆中的信息为反思提供了历史检索和推理信息。经过两步探索,根据正在进行的推理过程动态更新搜索的子图、推理路径和记忆中的子问题状态。

Subgraph 子图。子图包含了检索得到的所有关系和实体。更新LLM记忆的子图,从而能够在后续的反思和自我纠错中发挥作用,在纠错时,LLM决定实体探索是否需要回溯。在第轮迭代中,通过添加检索得到的候选关系集和实体集更新子图。

Reasoning Paths 推理路径。为了确保LLM能够理解实体之间的关系,以便更好地进行推理,并允许在反思阶段进行路径纠正,更新了推理路径,以保留KG内的语义结构。

Sub-Objective Status 子目标状态。LLM在推理过程中可能会忘记部分条件。通过分解问题得到的子目标可以帮助大型语言模型记住问题中的多个条件。子目标的状态包含了与子目标相关的当前已知信息,可以帮助LLM在反思阶段记住每个条件的已知信息,并决定是否纠正探索方向。利用LLM将当前已知的与子目标相关的信息更新为子目标状态。

Evaluation 评价

经过上述路径探索和记忆更新,PoG提示LLM是否已经获取充足的信息来回答问题。如果LLM确定信息充足,则聚合推理路径、子问题状态以及自身知识来回答问题。否则有两种情况。一种情况是PoG会在当前路径的基础上进行进一步拓展,获取更加充足的信息。另一种情况就是当前路径是错误路径。由于LLM的推理能力并不总是保证路径探索的正确性,因此需要对错误的推理路径进行自我纠正。因此,本文设计了一个反思机制来确定是否需要以及如何自我纠正推理路径。当LLM认为信息不足时,PoG进入反思阶段。具体来说,PoG根据问题、子目标状态、推理路径和从记忆中检索得到的下一次迭代规划的实体来反思是否纠正当前的探索方向。此外,LLM将提供反思结果的原因。如果LLM判断有必要在之外加入额外的实体进行探索,那么就需要对推理路径进行自我纠正。否则,PoG将继续沿着当前的推理路径探索中的尾实体。对于自我纠正,PoG根据子目标状态和反思得到的额外检索信息,使用LLM来决定哪些候选集实体需要回溯,并在中添加回溯实体新的探索进行自我纠正,记为。

Experiments

Experimental Setups

本文采用了三个代表性的多跳KGQA数据集:CWQ、WebQSP和GrailQA。使用精确匹配精度(Hits@1)作为评估指标。

由于本文方法在不同数据集上的性能存在差异,在不同数据集上选择了对应最先进的方法作为基准。可以分为两类:(1)LLM-only methods。包括标准提示(IO prompt),它验证了LLM在任务无关、少样本问题上比传统语言模型的性能优势;思维链(Chain-of-Thought,CoT),通过在提示中生成一系列中间推理步骤帮助 LLM 在一些自然语言处理任务中表现更好;自一致性(Self-Consistency,SC),利用少样本 CoT 采样多个不同的推理路径,并据此选择最一致的答案。(2)KG-augmented LLM methods。又细分为微调方法和提示方法。

Performance Comparison

与提示增强的 KG - LLM 方法对比:PoG 表现卓越,大幅超越如 ToG 等基线方法。ToG 因固定探索宽度且无法纠错,在效果和效率上受限,而 PoG 的自校正和自适应规划机制显著提升了性能。

与微调的 KG - LLM 方法对比:尽管 PoG 是无训练的提示方法,但在性能上极具竞争力。使用 GPT - 4 时,PoG 在各数据集上超越所有微调方法;使用 GPT - 3.5 时,在 GrailQA 数据集上也超过了同类方法,表明其设计的机制效果显著。

与LLM-only方法对比:相比未利用外部知识图谱的 LLM - only 方法,PoG 提升明显,凸显了结合知识图谱增强 LLM 性能的价值,其自校正自适应规划进一步提升了效果。在 GrailQA 的零样本子集上,PoG(GPT - 3.5)优势突出,远超其他方法,体现了自校正机制对零样本问题的关键作用。

Ablation Study

移除整个任务分解作为引导的部分。在 CWQ、WebQSP 和 GrailQA 数据集上,其性能相比 PoG 分别降至 60.1、80.3 和 72.4,表明任务分解的指导作用对整体性能有积极贡献,缺失它会使模型在复杂问答任务中表现变差。

没有记忆机制后,在各数据集上性能下降明显,如在 CWQ 上降至 58.9,因为没有记忆信息支持,模型在探索和自校正时缺乏依据,无法有效利用历史检索和推理信息,从而影响了最终的答案推断。

当信息不足时只沿原推理路径继续探索,在三个数据集上性能均降低,说明反思机制对纠正错误推理路径至关重要,缺失它会导致模型在遇到问题时无法及时调整探索方向,进而影响回答的准确性。

采用固定探索空间宽度后,性能有所下降,不过由于记忆和反思机制的存在仍能保持一定水平,这表明固定宽度虽降低了灵活性,但模型可通过其他机制部分弥补,不过整体性能仍受影响,凸显了自适应宽度的重要性。

Efficiency Study

在 CWQ、WebQSP 和 GrailQA 数据集上,PoG 始终比 ToG 需要更少的 LLM 调用次数,至少减少 40.8%。这显示出 PoG 能够以更少的与 LLM 的交互次数更高效地进行推理,降低了对 LLM 资源的依赖和调用成本。

在输入Token方面,如在 CWQ 数据集上,PoG 相比 ToG 减少了约 4.6% 的消耗;在输出Token方面,PoG 的优势更为显著,在 CWQ 上仅产生 353.2 个输出Token,相比 ToG 的 1486.4 个大幅降低约 76.2%。这表明 PoG 在推理过程中能有效控制Token的使用量,减少了数据传输和处理的负担。

PoG 在时间效率上相比 ToG 有巨大优势,在 CWQ 和 GrailQA 数据集上,速度提升超过 4 倍。ToG 由于预定义探索广度,会探索许多无关路径,且缺乏自校正机制,在信息不足时只能盲目扩展当前路径,导致大量时间浪费在无关探索上。而 PoG 基于问题语义的自适应探索和推理路径自校正功能,避免了这些无效操作,从而极大提高了时间效率。

Case Study

Conclusion

本文提出Plan-on-Graph(PoG)这一KG-augmented LLM的自校正自适应规划范式,首次融入反思机制提升推理能力与效率。其先分解问题为子目标,再循环探索路径、更新记忆与反思校正,依靠指导、记忆、反思机制保证自适应广度。经三个KGQA数据集实验,充分验证了PoG的有效性与高效性,为该领域发展提供新路径与方法,助力推动相关研究与应用迈向新台阶。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值