【GraphRAG论文解读】让你快速从0到1了解GraphRAG

最新推荐文章于 2025-04-22 10:29:20 发布

刘承卓

最新推荐文章于 2025-04-22 10:29:20 发布

阅读量4.2k

点赞数 22

分类专栏： LLM+RAG 文章标签：语言模型知识图谱 AIGC nlp

本文链接：https://blog.csdn.net/m0_46686599/article/details/140608213

版权

LLM+RAG 专栏收录该内容

23 篇文章

订阅专栏

论文介绍

论文发布于2024年4月24日，7月2日项目开源，作者都来自于微软研究院，论文目前是一个预印本（preprint），没有正式发表。

论文标题及作者信息

第一个提出知识图谱+检索增强生成的方法，目的是解决大模型在利用外部知识回答问题时，原生的RAG方法难以有效回答QFS（查询聚焦摘要）问题。主要涉及两个阶段：1.利用prompt使大模型进行多轮实体关系提取，并构建知识库的知识图谱。2.对知识图谱进行社区检测并利用LLM生成社区摘要。

论文地址： From Local to Global: A Graph RAG Approach to
Query-Focused Summarization
项目源码：GitHub Repository
微软项目说明：Welcome to GraphRAG

论文摘要解读

论文摘要

局限性：传统的RAG系统擅长于检索和生成局部查询的答案，但在需要对整个数据集进行主题摘要的全局查询方面表现不佳。
Graph RAG：从源文档中构建一个基于图的文本索引，并利用该索引生成对全局查询的综合且多样化的答案。

论文方法解读

方法流程图

源文档—文本块

在此过程需要将长文本分成大小适中的文本块，在后续过程中我们需要把每一个文本块交由大模型处理，而大模型的上下文窗口有限，一般为512-2048token，不同模型不一致。

文本块的粒度：较长的文本块需要更少的LLM调用来进行提取，有更高的效率和低成本，但在较长的LLM上下文窗口中会出现召回率下降的问题，即提取实例不充分，有遗漏情况。
在单轮提取（即零收集）的情况下，可以在图 2 中观察到这种行为：在样本数据集上，使用大小为 600 的块提取的实例几乎是使用 2400 的块的两倍。提取实例情况图

文本块—元素实例

从每个文本块中识别和提取图节点和边的实例。这个过程是为了从文本中提取结构化信息，特别是识别实体及其关系。通过优化提示和多轮收集，确保即使在处理大块文本时，也能保持高质量的提取结果。这种方法特别适合需要从大量文本中提取复杂信息的任务，如知识图谱构建和信息检索。

步骤

实体识别：
- 使用一个多部分的LLM（大型语言模型）提示，首先识别文本中的所有实体。
- 实体包括名称、类型和描述。
关系识别：
- 接下来，识别清晰相关的实体之间的关系。
- 包括关系的源实体和目标实体及其关系的描述。
输出形式：
- 实体和关系都作为一个包含分隔元组的列表输出。

优化方法

领域适应：

可以通过为LLM提供少量示例来使提示适应特定领域（如科学、医学、法律等）。
这些示例用于上下文学习，使模型更好地理解和处理特定领域的文本。

次要提取提示：

除了主要的实体和关系提取，还可以使用次要提示提取附加信息（协变量）。
默认情况下，次要提示提取与实体相关的声明，包括主体、客体、类型、描述、源文本范围和开始/结束日期。

多轮收集：

为了在效率和质量之间取得平衡，使用多轮“收集”来确保所有实体都被检测到。这种方法允许使用较大的文本块大小，而不会降低提取质量或引入噪音。
第一步：要求LLM评估是否所有实体都已提取，强制做出是/否决定。
如果LLM回答遗漏了实体，继续提示“上次提取中遗漏了许多实体”，鼓励LLM收集这些遗漏的实体。

元素实例—元素摘要

此过程, 将每个图元素（如实体节点、关系边和声明协变量）的实例级摘要转换为单一描述文本块。为此，需要进一步使用LLM对匹配的实例组进行总结和整合。

潜在问题和解决方法

可能的问题是LLM在不同的地方引用同一个实体时，格式不一致，导致出现重复的实体节点。
解决方法是，后续步骤会检测并总结所有密切相关的实体。LLM可以理解多个名称变体背后的共同实体，只要这些变体之间有足够的连接性到一组密切相关的实体，方法就能应对这些差异。

方法的优势

丰富描述性文本的使用：

使用丰富的描述性文本来描述同类节点，即使在图结构中有潜在的噪声，这种方法也符合LLM的能力和全球、查询聚焦摘要的需求。
这种方法不同于典型的知识图谱，后者依赖于简洁且一致的知识三元组（主体、谓词、客体）来进行推理任务。

元素摘要 → 图社区

通过将前一步的索引构建成一个同质无向加权图，并应用社区检测算法（如 Leiden 算法），我们能够将图划分为若干社区。这些社区内部节点之间的连接更强，通过这种划分，可以有效地进行全局信息的总结和处理，实现“分而治之”的全局摘要。这种方法不仅能够高效处理大规模图，还能提供详细的层次化社区结构，为进一步分析和总结提供了坚实的基础。

具体过程和方法如下：