ACL24|基于图结构增强LLM的推理能力-CSDN博客

本文链接：https://blog.csdn.net/Androiddddd/article/details/143634630

Introduction

大语言模型已经证明了在现实世界中卓越的语言理解和文本生成能力，但是，LLMs会遭遇幻觉问题即生成听起来合理但实际与事实不符的答案，这是因为它们会参数化记忆知识，不能参考具体的知识来源。为了缓解幻觉问题，现有的方法是通过与外部的文本语料库作为知识源相结合，将每一份文档视为知识单元。RAG就是能够让LLMs与外部知识源互动，其中相关的文本会被检索并作为上下文提示来提高LLMs的事实性。但是，检索增强假设知识在单个文本单元中得到了很好的表示，并忽略了多个文本单元之间的关联。

在现实世界中，文本单元通常是相互联系的，形成一个图，这类图中的知识不仅以文本的形式反映，还体现在它们连接的结构中。例如，在学术图谱中，通过链接连接的学术论文，可以用来追溯研究方向的来源。在法律图谱中，案例和观点通过引用边连接，可以用来验证案例的判断。

尽管检索增强广泛用于将文本语料库作为外部知识源，但由于两个原因，它不能直接用于将图与LLMs结合。第一点原因：检索增强可以在图中找到单个节点或文本，这些可以用来作为上下文来增强LLMs。然而，图上的知识也存在于结构中，这是单个节点或文本无法捕捉的。第二点原因：当尝试将图的局部结构转换为文本描述以提供给LLMs时，随着需要考虑的图的深度增加，所需的上下文信息量会迅速增加。此外，这种呈指数级上升的上下文信息不仅可能导致LLMs处理不过来，还可能超出LLMs输入长度的限制，从而影响模型的性能和准确性。

因此，用此类图信息来增强LLMs是一个重要的课题，但不幸的是，一直缺乏基准数据集来支持方法论的发展和促进所提出模型的评估。对此，本文首先构建了一个名为GRBENCH的图推理基准数据集。这个数据集包含十个真实世界的图，这些图可以作为来自五个领域的LLMs的外部知识源，包括学术、电子商务、文学、医疗和法律领域。同时，这个数据集中的每个样本都是有人工设计的问题和答案组成，这些问题和答案都可以通过参考图或从图中检索信息作为上下文来回答。为了使数据集全面，数据集包括了不同难度级别的样本：简单问题（可以通过图上的单跳推理回答），中等问题（需要图上的多跳推理），以及难题（需要在图上的信息作为上下文进行归纳推理）。

本文提出了一个简单有效的框架，称为图链思考，主要思想就是是使LLMs能够逐步遍历图以找出所需的关键信息，而不是直接将整个子图作为上下文输入到LLMs中（如下图所示）。

这个GRAPH-COT是一个迭代框架，每次迭代对应于图上的一步。GRAPH-COT中的每次迭代包括三个子步骤：1）推理：LLMs提出可以根据当前信息得出结论以及需要从图中获取哪些进一步的信息；2）交互：LLMs生成从图中获取信息所需的交互（例如，查找节点、检查邻居等）；3）执行：在图上执行交互步骤中的请求，并返回相应的信息。通过这种方式，LLMs可以在图上进行基于链的推理并找到图上的关键信息。这个过程将迭代进行，直到LLMs在推理子步骤中得出最终答案。

GRBENCH Dataset

Dataset Overview

本文创建了GRBENCH数据集，以评估大型语言模型（LLMs）与包含丰富知识的特定领域图的交互能力，以解决预期的问题。该数据集包含了来自五个通用领域的10个图，且其中每个数据集样本都是一个问题-答案对。这些问题被设计来模拟特定领域的现实世界用例。然而，LLMs仅凭模型参数中存储的内部知识很难回答这些问题，它们需要与外部领域的图进行交互。

GRBENCH的整体统计数据如下图所示。为了在不进行大量人力工作的情况下策划高质量和多样化的数据，GRBENCH的构建包含四个步骤：1）首先从现实世界场景中收集大型参考图数据，这些数据可以作为数据生成的上下文。2）然后，手动设计可以在参考图数据上回答的问题模板。3）之后，调用GPT-4为每个问题模板生成多样化的问题表达。4）最后，从特定领域的图中自动生成真实的答案。

Reference Graph Data

本文从五个领域收集数据，这些领域的知识以图的形式存在：学术界、电子商务、文学、医疗和法律。这些图的详细数据如下图所示。在学术领域，本文从从DBLP1和微软学术图谱（MAG）获得了涵盖生物学、计算机科学、化学、材料科学、医学和物理学六个学科的学术图谱。这些图上的节点是论文、作者和会议场所，而边包括引用边、作者边和会议边。在电子商务领域，本文用的亚马逊产品数据集，该数据集提供了跨多个产品类别的项目元数据信息。这个图上的节点是项目和品牌，而边包括“一起查看”、“查看后购买”、“一起购买”等。在文学领域，书籍、作者、出版商和系列之间的固有图结构存在相互连接。Goodreads数据集提供了一个广泛的图书及其元数据集合。这个图上的节点是书籍、作者、出版商和系列，而边包括“作者”、“出版于”、“书籍系列”等。在医疗领域，可以通过考虑与疾病相关的属性来构建一个图。本文采用了生物疾病图Hetionet，它全面总结了现有的疾病及其症状，目的是重新利用药物。这个图上的节点包括疾病、症状、副作用、化合物等，而边包括“疾病呈现症状”、“化合物导致副作用”等。在法律领域，案例和观点之间有丰富的引用链接，自然形成了一个图。本文使用来自CourtListener的数据。这个图上的节点是观点、观点集群、案件和法院，而边包括“观点引用”、“观点集群”、“集群案件”和“案件法院”。

Manually Designed Question Templates

问题生成阶段的目标是创建一些在参考特定领域图谱后能够被LLMs回答的问题。为了确保这些问题的准确性和意义，作者请了受过良好训练的计算机科学博士生来撰写可能的问题，这些问题在给定图谱的上下文中可以得到答案。为了全面评估LLMs及其与图谱交互的能力，研究者要求注释者设计三种不同难度的问题模板：1）简单模版：这些问题可以通过查看单个节点的特征或度量，或者在图谱中进行一次跳跃来解答。例如，“{item}的价格是多少？”或者“{paper}的作者是谁？” 2）**中等模版：**这些问题需要在图谱中进行多次跳跃的推理，并涉及到返回节点的特征或度量。例如，“{author}在{year}年最亲密的合作者是谁？3）**困难模版：**这些问题不能直接通过查看图谱来解答，但图谱可以通过提供信息上下文来辅助。例如，“给定这个{query}，它的互补商品是什么？”

Diverse Question Expression with GPT-4

遵循前面的步骤，为每个图谱获得了问题样本。但是，所有与同一模板相关的问题样本将会使用相同的表达方式，这限制了数据样本的多样性，并可能导致评估不够全面。为了解决这个问题，本文提出使用GPT-4来对每个问题模板进行改写，使其变成五种不同的表达方式，以便能够获得关于同一类型问题的更多样的问题样本。

Automatic Answer Generation

最终步骤是为每个生成的问题从图谱中获取标准答案。为了实现这一目标，作者首先实现了图谱功能，这些功能可以用来在图谱上进行推理。然后实现了函数链，这些函数链可以作为图谱功能的组合，以便从图谱中提取标准答案。而这些函数链是由注释者针对每种类型的问题手动编写的。

Graph Chain-of-Thought

让LLMs与与图谱交互的直接解决方案是通过检索增强生成，其中检索器从图谱中获取相关信息作为LLM生成的上下文。然而，与将文本语料库作为外部知识源不同，图谱中的信息也存在于文本单元之间的复杂相互连接中，这意味着要有效地利用图谱信息，需要对图谱进行遍历和推理。

而为了使LLMs能够进行推理，提出了思维链，以鼓励LLMs将复杂任务分解为几个步骤。然而，它是为了在文本上进行推理而设计的，而将LLMs用于图谱推理的问题仍然是一个开放的问题。为此，本文设计了一个解决方案，名为Graph Chain-of-Thought，以解决LLMs在复杂图谱推理问题上的挑战（如下图所示）。GRAPH-COT是一个迭代框架，每次迭代包含三个步骤：推理、交互和执行。具体步骤如下：

Reasoning with LLMs

在使用LLMs进行推理的过程中，第一步是根据问题或之前迭代的上下文，让LLMs进行推理，以确定需要从图谱中获取哪些额外的外部信息，或者是否可以用当前图谱中的上下文来回答这个问题。例如，给定问题“《Language Models are Unsupervised Multitask Learners》的作者是谁？”LLMs应该推理出首先要在图谱上找到论文节点{Language Models are Unsupervised Multitask Learners}。

Interaction between LLMs and Graphs

基于之前LLM推理步骤的输出结果，下一步是让LLMs知道如何与图谱交互，并从图谱中获取相关信息。本文对此预定义了四个图谱函数，以涵盖图谱上的语义和结构信息，具体如下：

RetrieveNode(Text)：通过语义搜索在图谱中识别相关节点。
NodeFeature(NodeID, FeatureName)：从图谱中提取特定节点的文本特征信息。
NeighborCheck(NodeID, NeighborType)：返回图谱中特定节点的邻接信息。
NodeDegree(NodeID, NeighborType)：返回图谱中特定节点的特定邻接类型的数量。

当前任务要求LLMs基于之前的推理结果生成精确的图谱函数调用，以有效地与图谱交互，在上述例子中，LLMs应该生成在给出的例子中，LLMs应该生成“RetrieveNode(Language Models are Unsupervised Multitask Learners)”。

Execution on Graphs

最后一步是调用前一步给出的函数，并从图谱中获取相关信息。对于上述例子，图谱将执行RetrieveNode()函数，并返回“最相关的论文节点的ID是p-4123”。

随着当前迭代结束，它将使用这些信息开始新一轮的迭代。在新一轮的推理步骤中，LLM将利用这些新信息来进一步分析和推理，整个框架将迭代进行，直到LLM完成推理并输出最终答案。在这项工作中，我们通过上下文学习使LLMs能够学习如何进行GRAPH-COT。

Connection to LLM agents

更进一步来讲，GRAPH-COT可以被视为一个代理框架，其中代理框架指的是设计用来在特定环境中执行任务的智能体（agent）。在GRAPH-COT框架中，LLMs扮演智能体的角色，它们能够理解任务、制定策略，并在图谱环境中执行操作以达成目标。在这个框架中，LLM骨干模型是代理，而图谱是环境。代理（LLMs）可以使用一些预定义的函数与环境（图谱）进行交互，代理的目标是探索图谱环境并进行问答。

Experiments

Experimental Setup

Baselines

本文提出的GRAPH-COT与三种基线方法进行比较:标准的LLMs（基础LLMs）、通过文本检索增强的LLMs（文本RAG LLMs）和通过图谱检索增强的LLMs（图谱RAG LLMs):

基础LLMs：测试LLMs是否能够仅凭自己的知识回答问题，而不与外部数据交互。本文采用标准的提示方式，包括提供简单的指令，让LLMs为问题生成答案。
文本RAG LLMs：将外部图谱视为纯文本语料库，并使用检索器从中检索相关的文本信息。随后，检索到的文本作为上下文增强LLM，以回答问题。
图谱RAG LLMs：这是文本RAG的扩展，不仅检索到的文本和节点，而且与之相关的子图谱也被线性化成文本序列，并作为上下文。在主要结果中，我们使用1跳自我中心图谱。

对于所有类别的基线，作者探索了三种LLM骨干模型，包括LLaMA-2-13b-chat、Mixtral-8x7b-Instruct 和GPT-3.5-turbo。

Evaluation Metrics

本文主要使用基于规则的指标和基于模型的指标来全面评估模型结果。对于前者，作者使用_Rouge-L_(R-L)，它测量响应和真实答案之间的最长公共子序列的单词即计算模型输出与真实答案的相似度。对于后者，本文调用_GPT-4_来测量模型输出和真实是否相同，计算GPT-4预测为“正确”的百分比作为GPT4score。

Overall Performance

主要结果如下表所示，从表中可以出来：1) GRAPH-COT一致且显著地超越了所有基线模型。2) 基础LLMs表现出相当差的性能，这通常是因为LLMs可能不包含回答这些问题所需的知识。3) 在大多数情况下，图谱RAG LLMs的表现优于文本RAG LLMs，因为前者可以提供更多结构感知的上下文，这对解决问题很有帮助。4) 尽管GRAPH-COT表现最佳，但其绝对分数并不高，还有很大的提升空间。

Ablation Study

GRAPH-COT的示例有多重要，为了回答这个问题，本文从两个方面进行实验：零样本研究即没有示例和跨域研究即来自其他领域的示例。结果如下图所示，其中列和行分别对应源域和目标域。

在零样本研究中，没有给出示例（图中最右列），通过实证发现，如果没有推理示例，GRAPH-COT在所有数据集中都无法工作。这意味着如果给LLMs提供不充分的指令（仅有图谱定义和交互函数定义），它们会受到影响。对于跨域研究，我们从源域图谱提供示例，并在目标域图谱上进行测试。从结果（图中左五列）来看，同域示例（对角线）表现相当好，GRAPH-COT总体上对示例域偏移具有鲁棒性。这一观察强调了GRAPH-COT通过上下文学习捕捉图谱链推理关键步骤的适应性和有效性。

RAG vs GRAPH-COT

本文通过将检索到的子图设置为为单个节点、1跳自我中心图和2跳自我中心图来研究图谱检索增强的LLMs的工作方式。在所有设置中，自我中心图被线性化成文本序列并作为上下文。所有数据集上的平均结果如下表所示。从结果来看，检索1跳自我中心图表现最佳，但仍然不如GRAPH-COT。

原因是在进行子图检索时，节点或文本的数量会随着跳数的线性增长而呈指数级增长。即使更大的子图包含更多信息，一个大跳数的自我中心图会导致超级长的上下文，这甚至超过了LLMs的最大输入长度，会导致LLMs在处理中迷失。在这种情况下，GRAPH-COT可以作为一种更好的方法从图谱中提取更有用的信息。

总的来说，与简单的图谱检索增强方法相比，GRAPH-COT框架能够更有效地从图谱中提取有用信息，因为它通过迭代推理和交互的方式逐步构建证据图，而不是一次性处理大量的图谱数据。

Case Studies of GRAPH-COT

本文进行案例研究以了解GRAPH-COT的弱点。两个失败案例的结果如下图所示。在左侧案例中，作者发现尽管使用了最先进的LLM骨干模型（即GPT-4），该框架有时还是会根据单词的出现而不是理解其语义含义来引用，导致错误的交互函数调用。在右侧案例中，作者发现框架有时会误解图谱的结构，导致交互失败。尽管GRAPH-COT在GRBENCH上取得了相对不错的性能，但仍有很大的改进空间。