Graph-COT框架｜图推理增强LLMs

最新推荐文章于 2025-05-24 15:58:27 发布

大模型面试

最新推荐文章于 2025-05-24 15:58:27 发布

阅读量865

点赞数 18

文章标签：人工智能 AI大模型大模型 LLM ai LLMs 学习

本文链接：https://blog.csdn.net/Code1994/article/details/143432831

版权

大语言模型（LLMs）在现实世界场景中表现出色，但在知识密集型任务中存在幻觉问题，即生成的答案虽然看似合理但缺乏事实依据。现有工作主要使用检索增强生成（RAG）方法将外部文本语料库作为上下文输入LLMs，但这些方法无法有效处理图结构中的知识。此外，现有的图神经网络（GNN）方法主要用于传统的图任务，如节点分类和链接预测，而不是与LLMs结合进行图推理。今天主要内容是构建一个名为GRBENCH的图推理基准数据集，并提出一个名为GRAPH -COT的简单有效的框架，通过迭代推理图来增强LLMs。通过图推理来增强大型语言模型（LLMs）的知识理解能力，特别是针对知识密集型任务中的幻觉问题。

一、研究背景

研究问题：论文要解决的问题是如何通过图推理来增强大型语言模型（LLMs）的知识理解能力，特别是针对知识密集型任务中的幻觉问题。
研究难点：

现有检索增强方法假设知识以独立的文本单元存在，忽略了多个文本单元之间的关联；
现实中的文本单元通常相互连接形成图，图中的知识不仅体现在文本内容上也体现在其结构上；
图的规模随着跳数增加呈指数增长，导致过长的上下文序列可能使LLMs迷失在中间。

相关工作：

检索增强方法（RAG），将相关文本作为上下文输入LLMs；
现有的图神经网络（GNN）方法主要关注传统的图任务，如节点分类和链接预测；
Graph-of-thought方法提出让LLMs进行基于图的推理，但主要针对文本推理。

二、Graph-COT框架

论文提出了一个名为Graph Chain-of-thought (GRAPH-COT) 的框架，用于通过图推理来增强LLMs。

1. 图推理框架

GRAPH-COT是一个迭代框架，每次迭代包含三个子步骤：LLM推理、LLM与图的交互和图的执行。
LLM推理步骤中，LLMs根据当前信息推断出还需要从图中获取哪些外部信息；
LLM与图的交互步骤中，LLMs生成从图中获取信息的交互操作；

图的执行步骤中，执行交互操作并返回相应的信息。

2. 图函数定义

为了实现LLM与图的交互，论文预定义了四种图函数：

RetrieveNode(Text)：通过语义搜索识别图中的相关节点。
NodeFeature(NodeID, FeatureName)：从图中提取特定节点的文本特征信息。
NeighborCheck(NodeID, NeighborType)：返回图中特定节点的邻居信息。
NodeDegree(NodeID, NeighborType)：返回图中特定节点的邻居类型数量。

3. 链式推理

通过多次迭代，LLMs逐步推理出图中的关键信息，直到得出最终答案。每个迭代过程中，LLM根据前一步的推理结果生成新的交互操作，并从图中获取新的信息，重复此过程直到推理结束。

三、实验设计

数据集构建：论文构建了一个名为GRBENCH的数据集，包含10个真实世界的图，覆盖学术、电子商务、文学、医疗和法律五个领域。每个样本是一个问题-答案对，问题设计为模拟特定领域的真实世界用例，答案需要通过参考图或从中检索信息获得。
数据集来源：学术领域的图来自DBLP和Microsoft Academic Graph；电子商务领域的图来自Amazon产品数据集；文学领域的图来自Goodreads数据集；医疗领域的图来自Hetionet生物疾病图；法律领域的图来自CourtListener数据集。
问题模板设计：手动设计了三种难度级别的问题模板：简单问题（单步推理）、中等问题（多步推理）和困难问题（归纳推理）。每个问题模板由四名计算机科学博士生成，确保问题的准确性和意义。
问题表达多样性：使用GPT-4对每个问题模板进行五种不同表达方式的改写，以增加数据样本的多样性。
自动答案生成：通过实现图函数和函数链，从图中自动生成每个生成问题的正确答案。

四、结果与分析

总体性能：实验结果表明，GRAPH-COT在所有基准测试中均显著优于基线方法。具体来说，GRAPH-COT在学术、电子商务、文学、医疗和法律领域的平均Rouge-L得分分别为31.89、42.40、41.59、22.33和30.52，而基线LLMs在这些领域的得分普遍较低。
消融研究：零样本实验表明，没有推理示范的情况下，GRAPH-COT在所有数据集上的表现接近于零，说明LLMs在没有充分指导的情况下无法有效工作。跨域实验表明，领域内示范效果良好，GRAPH-COT对示范领域的变化具有鲁棒性。
不同LLMs的表现：使用不同的LLMs骨干进行实验，结果表明，具有更先进指令遵循能力和推理能力的LLMs（如GPT-4）在GRAPH-COT中表现更好。
RAG与GRAPH-COT的比较：实验结果显示，检索增强的LLMs在大多数情况下表现优于文本检索增强的LLMs，但仍未达到GRAPH-COT的性能。这是因为大跳数的子图检索会导致过长的上下文序列，从而使LLMs迷失在中间。
不同难度问题的表现：分析GRAPH-COT在不同难度问题上的表现，发现其在简单问题上表现较高，而在中等/困难问题上的表现较差。

五、总结

在这项工作中，研究了用（文本赋予的）图作为外部知识源来增强LLMs的问题。首先手动构建了一个名为GRBENCH的基准数据集，包含来自5个领域的1,740个问题和10个图。GRBENCH中的每个问题都可以通过参考图来回答。进一步提出了一种简单有效的框架，称为GRAPH-COT，它可以通过让LLMs对图进行迭代推理来增强LLMs。GRAPH-COT在每次迭代中包含三个子步骤：LLM推理、LLM图交互和图执行。然后在GRBENCH上使用三个骨干LLMs进行了实验，并展示了GRAPH-COT的有效性。未来的工作可以探索如何让LLMs更好地理解图以及如何让LLMs进行更复杂的推理。

六、导读总结

优点与创新

提出问题并引入基准数据集：首次提出了将大型语言模型（LLMs）与外部图结构知识源结合的问题，并引入了名为GRBENCH的基准数据集。
提出简单有效的框架：开发了名为GRAPH-COT的迭代框架，通过逐步推理图结构来增强LLMs的能力。
系统实验：在GRBENCH数据集上进行了广泛的实验，展示了GRAPH-COT的有效性，并分析了其在不同展示设置、骨干LLMs和问题难度下的性能。
探索失败案例：探讨了GRAPH-COT的失败案例，并提出了未来改进的方向。
多领域应用：GRBENCH数据集涵盖了学术、电子商务、文学、医疗和法律五个领域，展示了GRAPH-COT在不同领域的适用性。
零样本和跨域研究：通过零样本研究和跨域研究，验证了GRAPH-COT在没有推理演示和领域偏移情况下的鲁棒性和适应性。

不足与反思

问题多样性和难度：尽管使用了GPT-4进行问题模板的重述，但模板大多为手动设计，可能在问题多样性和难度方面仍有改进空间。
LLM骨干模型的局限性：目前使用的LLM骨干模型是一个不可微调的API模型，或者调优成本非常高。未来的方法可能需要考虑如何显式训练LLMs以在图上导航。
图理解改进：GRAPH-COT主要使用自然语言描述图结构，未来可以考虑使用更具结构感知的语言（如graphXML）来更好地帮助LLMs理解图。
复杂推理：当前GRAPH-COT主要关注链式推理，未来可以探索更复杂的推理范式，如基于树的推理和基于图的推理。

七、关键QA

问题1

GRAPH-COT框架中的图函数定义是什么？这些函数如何帮助LLMs与图进行交互？

在GRAPH-COT框架中，定义了四种图函数来帮助LLMs与图进行交互：
RetrieveNode(Text)：通过语义搜索识别图中的相关节点。
NodeFeature(NodeID, FeatureName)：从图中提取特定节点的文本特征信息。
NeighborCheck(NodeID, NeighborType)：返回图中特定节点的邻居信息。
NodeDegree(NodeID, NeighborType)：返回图中特定节点的邻居类型数量。
这些函数使得LLMs能够逐步推理出图中的关键信息。例如，在“Who are the authors of paper ‘{paper_title}’?”这个问题中，LLM首先使用RetrieveNode函数找到论文节点，然后使用NodeFeature函数提取论文的作者信息。

问题2

GRAPH-COT框架在实验中表现如何？与其他基线方法相比有哪些优势？

GRAPH-COT框架在所有基准测试中均显著优于基线方法。具体优势包括：

显著优于基线：GRAPH-COT在所有领域图和数据集上的表现均优于标准LLMs、文本检索增强LLMs（Text RAG LLMs）和图检索增强LLMs（Graph RAG LLMs）。
结构化上下文：图检索增强LLMs（Graph RAG LLMs）在大多数情况下优于文本检索增强LLMs（Text RAG LLMs），因为前者提供了更具结构感的上下文，有助于问题解决。
链式推理：GRAPH-COT通过多次迭代，LLMs逐步推理出图中的关键信息，直到得出最终答案，这种链式推理方法使得LLMs能够更好地处理复杂和知识密集型的任务。