微软重磅开源 GraphRAG:新一代 RAG 技术来了!

▼最近直播超级多,预约保你有收获

今晚直播:RAG/Dify 构建企业案例实战

 1

为什么需要 GraphRAG? 

7月3日,微软重磅开源了基于图的 RAG -- GraphRAG。在 GitHub 上发布后,短短4天时间,该项目迅速获得了 6000 Stars!足见这个项目的热度!

Github 地址:https://github.com/microsoft/graphrag

强化主流大模型,比如:GPT-4o、Qwen-2、文心一言、GLM-4、Llama-3 的搜索、问答、摘要及推理等功能,RAG 已成为这些国际国内知名 AI 大模型不可或缺的核心技术。

过往的 RAG 实践多沿袭简约路线:文档简化为文本字符串,切割为零碎段落,继而映射进向量空间,实现语义相似度的直观展现。然而,这种直白策略在面临大规模数据全局理解的挑战时显露短板——它偏重局部文本匹配,忽略了对整体数据生态的全面洞察。

微软在此基础上另辟蹊径,引入“Graph”图技术概念,围绕文本内的实体要素(包括人物、地点、核心概念等)编织庞大知识图谱网络。这一创新不仅深化了大模型对文本内部复杂关联与互动的理解力,还极大提升了其内容生成与信息检索的智慧边界,引领 RAG 迈向更广阔的智能应用领域。

GraphRAG 方法可以归结为:利用大语言模型从您的私有知识中提取知识图谱;将此图谱聚类成不同粒度级别的相关实体;对于 RAG 操作,遍历此知识图谱以得到实体之间的关系,从而为得到最终的答案提供更多全局的关系知识。

14adf1e008de79d1c2511580320ba6e6.png

14231cb91820de1b1b7758abf4cb29be.png

 2

GraphRAG 架构设计剖析 

Graph RAG 技术的本质,在于实施一个两阶段策略来建立图谱驱动的文本索引体系:首步,从原始文献中挖掘并构建实体的知识图谱;紧接着,针对图谱中高度关联的实体集群,预先制作综合性社区摘要内容。

Graph RAG 的第一步就是将源文档分割成较小的文本块,这些文本块随后被输入到大模型中以提取关键信息。

b2920c2bf7abf50e48878ad6e3be3754.png

在这个过程中,大模型不仅要识别文本中的实体,还要识别实体之间的关系,包括它们之间的相互作用和联系,用来构建一个庞大的实体知识图谱,其中包含了数据集中所有重要实体和它们之间的关系。

通俗来讲,这一流程堪比烹饪前的食材准备,以处理西瓜为例:一个完整的大西瓜(原始数据)摆在面前时,我们首先要将其切分成可管理的小块(数据片段),比如瓜瓣或是更小的瓜丁,并留意这些瓜块之间的自然连接点,以便之后无论是混搭果盘还是精制果汁,都能得心应手,处理起来更加高效顺畅。

1bcc23ba90884d6b25fd0596d7b0286b.jpeg

随后,GraphRAG 采纳了先进的社区检测算法,旨在图谱中精准识别出模块化社区。这些社区由紧密相连的节点构成,它们之间的相互作用相较于图谱其余部分更为频繁和显著,从而自然地将庞大的图谱切割成多个小型、更便于分析和管理的区块,每一区块均聚焦于数据集内的独特主题或概念范畴。

依托于上述图形索引的构建,GraphRAG 进一步深化其分析层次,通过生成社区摘要来概括每个社区内的所有实体及其相互关系。这些摘要作为对特定数据集区域的精炼概览,极大地促进了用户对复杂数据的高层次理解。

为提升信息质量和相关性,GraphRAG 引入了一个大模型评分机制,对所有生成的答案进行0至100分的量化评估。评分过低的答案将被自动剔除,而高分答案则被视为优质候选,依据其得分从高到低进行排序。随后,这些精选的答案被逐步整合至新的上下文窗口中,直至达到预设的词数上限,确保最终呈现的信息既丰富又精炼。

以用户查询“如何进行有效减肥?”为例,GraphRAG 能够智能地利用与减肥主题紧密相关的社区摘要,快速生成多个初步答案片段。这些片段经过系统的汇总与精炼处理,最终融合成一个全面、针对性的回答,直接响应用户的需求。具体的 workflow 如下图所示:

d8be530e6377f6848e425c5a4013ab00.png

2be6bedcec82d0b0e6fb414cbfe246a7.png

77e5cf906af73b151768d52fbd09991c.png

 3

GraphRAG 相比传统 RAG 的优点 

Graph RAG 显著强化了全局检索能力,尤擅应对大规模数据集,为大模型带来关键助力:

c2ce2f6c55eb9d5b62ab7824f7f1b43d.png

  1. 拓展上下文视野:克服传统大模型上下文窗口局限,GraphRAG 利用图索引分解文本为小型社区,显著提升模型对长文本的理解与生成能力。

  2. 全局精准查询:超越传统 RAG 的局部检索限制,GraphRAG 借助社区摘要技术,从全局数据中萃取信息,确保答案的全面与精准。
  3. 丰富摘要生成:并行生成并汇总社区摘要,GraphRAG 促进大模型跨社区、多角度信息整合,生成更高质、更多元的摘要内容。

  4. 优化算力与资源:GraphRAG 模块化处理大规模文本,降低算力需求,同时减少 token 使用,高效生成高质量摘要。

  5. 强化检索与生成协同:结合检索与生成,GraphRAG 提升内容准确性与相关性。

  6. 深化数据集结构理解:构建知识图谱与社区,GraphRAG 洞悉文本内容及数据集结构。

  7. 提升复杂问题处理能力:GraphRAG 检索并摘要多社区信息,深化对复杂问题的理解,尤其擅长处理 PDF、Word 文档。

 4

GraphRAG 效果如何? 

为了验证 GraphRAG 效能,以复杂、意见分歧、信息不全的 VIINA 数据集为试金石,该数据集因新近发生未入大模型训练。微软整合俄乌冲突千余篇英文报道,创建大模型检索专用数据集。因数据量庞大,采用 RAG 技术处理。微软团队率先对传统 RAG 与 GraphRAG 发起探索性查询测试。

查询语句:“Novorossiya 做了什么?”

b4910b8994d7eeeb80f4f83c8bb5075c.png

传统 RAG 没能回答这一问题,因为从插入上下文窗口的源文件来看,没有任何文本片段提及“Novorossiya”,从而导致了这一失败。

相比之下,GraphRAG 能够识别查询中“Novorossiya”实体,助大模型构建图谱,联结原文生成带出处的高质答案。如下图,L大模型断言 Novorossiya 目标某银行,基于图谱中两实体关系,源自原文片段。、

9d3faff517243d94d902b64af2d5cfb0.png

为了更大范围评估 GraphRAG 的性能,微软在一个100万 tokens、超复杂结构的数据集上,包含娱乐、播客、商业、体育、技术、医疗等内容,进行了综合测试。

cca020fa6d25a5a1aa98d6fbfe9ed773.png

总之,结果表明,GraphRAG 全局检索方法在全面性和多样性上优于传统 RAG,其中 GraphRAG 在播客与新闻数据集上表现卓越,兼具高度多样性与全面性,堪称目前最优秀的 RAG 方案。此外,Grap RAG 对 tokens 需求低,有效降低了开发成本。

为了帮助同学们彻底掌握 RAG 的深层原理,在企业中的应用实践,今天我会开场直播和同学们深度剖析,请同学们点击以下预约按钮免费预约

5

领取 AI 大模型学习资料

b67b17be4f4a78ca00c90e0ab53c07a8.png不会吧,都2024年了,还有人在网盘、B站上爬学习资源?

9b140e2a2ef05ca9313985215a420342.png今天给大家搞到的是一份大厂内部都在用的『AI 大模型学习资源』

▶形式:直播公开课

费用:原价299,本号用户0元白嫖

内容:大模型原理、Agent、LangChain、Spring AI、RAG、向量数据库、知识库、私有大模型、算力评估...

扫码预约报名

👇『AI 大模型学习资源』👇

堪称资源界的YYDS!2acde57d7602e78601422b3732ae10f1.png

“得此资源,堪比1000G网盘资源”

👇👇👇

6a7718ad1a97f6b4b70aa34819ea8313.png

本期名额有限

5001d5b42be711e9b3a9f04167200922.gif

6

领取《AI 大模型技术知识图谱

23d16153fc3da342ae511cee27a83d82.png

这份业界首创知识图谱和学习路线,今天免费送了!

第一步长按扫码以下视频号,你身边需要一个 AI 专家。

4d5a275dc34937e5f8cd9556437d50f3.png

第二步:点击"关注按钮",就可关注。

27b7049aa3f830fa2575cc332e5775c1.jpeg

第三步:点击"客服“按钮,回复知识图谱即可领取。

774a5173884702f6aebb455243dcee87.jpeg

 7

每日精选 AI 大模型知识

⬇戳”阅读原文“,立即预约!

END

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值