微软重磅开源 GraphRAG：新一代 RAG 技术来了！

最新推荐文章于 2025-03-01 15:14:12 发布

musicml

最新推荐文章于 2025-03-01 15:14:12 发布

阅读量9.1k

点赞数 16

本文链接：https://blog.csdn.net/musicml/article/details/140257445

版权

▼最近直播超级多，预约保你有收获

今晚直播：《RAG/Dify 构建企业案例实战》

—1—

为什么需要 GraphRAG？

7月3日，微软重磅开源了基于图的 RAG -- GraphRAG。在 GitHub 上发布后，短短4天时间，该项目迅速获得了 6000 Stars！足见这个项目的热度！

Github 地址：https://github.com/microsoft/graphrag

强化主流大模型，比如：GPT-4o、Qwen-2、文心一言、GLM-4、Llama-3 的搜索、问答、摘要及推理等功能，RAG 已成为这些国际国内知名 AI 大模型不可或缺的核心技术。

过往的 RAG 实践多沿袭简约路线：文档简化为文本字符串，切割为零碎段落，继而映射进向量空间，实现语义相似度的直观展现。然而，这种直白策略在面临大规模数据全局理解的挑战时显露短板——它偏重局部文本匹配，忽略了对整体数据生态的全面洞察。

微软在此基础上另辟蹊径，引入“Graph”图技术概念，围绕文本内的实体要素（包括人物、地点、核心概念等）编织庞大知识图谱网络。这一创新不仅深化了大模型对文本内部复杂关联与互动的理解力，还极大提升了其内容生成与信息检索的智慧边界，引领 RAG 迈向更广阔的智能应用领域。

GraphRAG 方法可以归结为：利用大语言模型从您的私有知识中提取知识图谱；将此图谱聚类成不同粒度级别的相关实体；对于 RAG 操作，遍历此知识图谱以得到实体之间的关系，从而为得到最终的答案提供更多全局的关系知识。

—2—

GraphRAG 架构设计剖析

Graph RAG 技术的本质，在于实施一个两阶段策略来建立图谱驱动的文本索引体系：首步，从原始文献中挖掘并构建实体的知识图谱；紧接着，针对图谱中高度关联的实体集群，预先制作综合性社区摘要内容。

Graph RAG 的第一步就是将源文档分割成较小的文本块，这些文本块随后被输入到大模型中以提取关键信息。

在这个过程中，大模型不仅要识别文本中的实体，还要识别实体之间的关系，包括它们之间的相互作用和联系，用来构建一个庞大的实体知识图谱，其中包含了数据集中所有重要实体和它们之间的关系。

通俗来讲，这一流程堪比烹饪前的食材准备，以处理西瓜为例：一个完整的大西瓜（原始数据）摆在面前时，我们首先要将其切分成可管理的小块（数据片段），比如瓜瓣或是更小的瓜丁，并留意这些瓜块之间的自然连接点，以便之后无论是混搭果盘还是精制果汁，都能得心应手，处理起来更加高效顺畅。

随后，GraphRAG 采纳了先进的社区检测算法，旨在图谱中精准识别出模块化社区。这些社区由紧密相连的节点构成，它们之间的相互作用相较于图谱其余部分更为频繁和显著，从而自然地将庞大的图谱切割成多个小型、更便于分析和管理的区块，每一区块均聚焦于数据集内的独特主题或概念范畴。

依托于上述图形索引的构建，GraphRAG 进一步深化其分析层次，通过生成社区摘要来概括每个社区内的所有实体及其相互关系。这些摘要作为对特定数据集区域的精炼概览，极大地促进了用户对复杂数据的高层次理解。

为提升信息质量和相关性，GraphRAG 引入了一个大模型评分机制，对所有生成的答案进行0至100分的量化评估。评分过低的答案将被自动剔除，而高分答案则被视为优质候选，依据其得分从高到低进行排序。随后，这些精选的答案被逐步整合至新的上下文窗口中，直至达到预设的词数上限，确保最终呈现的信息既丰富又精炼。

以用户查询“如何进行有效减肥？”为例，GraphRAG 能够智能地利用与减肥主题紧密相关的社区摘要，快速生成多个初步答案片段。这些片段经过系统的汇总与精炼处理，最终融合成一个全面、针对性的回答，直接响应用户的需求。具体的 workflow 如下图所示：