GraphRAG工作原理揭秘及挑战

帮助你理解GraphRAG机制的示例

开发一个能够解决真实问题并给出恰当、精准答案的聊天机器人真的是一项艰巨的任务。尽管大型语言模型取得了显著进展,但一个开放性的挑战是将这些模型与知识库相结合,以提供可靠且具有丰富上下文的回答。

照片由Google DeepMind在Unsplash上提供。

关键问题几乎总是归结为幻觉(模型生成错误或不存在的信息)和情境理解,模型无法理解不同信息之间的微妙关系。尽管其他人尝试构建强大的问答系统,但往往无法取得太大的成功,因为这些模型通常给出粗糙的答案,尽管它们与全面的知识库相连接。

虽然RAG可以通过将生成的回答与真实数据相关联来减少幻觉,但准确回答复杂问题则是另一回事。用户经常会遇到这样的答案:“检索到的文本中并没有明确涵盖xx主题”,即使知识库明确包含有关信息,只是以不太明显的方式呈现。这就是GraphRAG(图检索增强生成)派上用场的地方,通过利用结构化知识图谱,提高模型提供精确和丰富上下文答案的能力。

RAG:链接检索与生成

RAG在结合检索和生成方法的优点上迈出了重要的一步。给定一个查询,RAG从一个大型语料库中检索相关的文档或段落,再利用这些信息生成答案。这样一来,生成的文本就可以确保具有信息量且与上下文相关,因为它基于事实数据进行构建。

例如,在一个问题中,比如"法国的首都是什么?",RAG系统将在其语料库中寻找与法国国家和其首都巴黎相关的文件。它将检索相关段落,并通过生成答案来回复,比如"法国的首都是巴黎。"这种方式非常适用于简单查询和明确文档化的答案。

然而,当需要理解实体之间的关系时,特别是在检索的文件中没有明确表述这些关系的复杂查询中,RAG会遇到问题。系统在像"17世纪的科学贡献如何影响20世纪初的物理学?"这样的问题上开始出现失败和崩溃(稍后将详细说明这个例子)。

GraphRAG:发挥知识图谱的力量

GraphRAG,旨在通过将基于图的检索机制融入模型中来克服这些限制。基本上,它将知识库的非结构化文本重新组织成结构化的知识图,其中节点表示实体(例如人物、地点、概念),边表示实体之间的关系。这种结构化格式使得模型能够更好地理解和利用不同信息之间的相互关系。

由Alina Grubnyak在Unsplash上的照片

让我们现在稍微详细地了解一下GraphRAG的概念,以及与RAG的比较,采用简便的方法。

作为开始,我们来看一个假设的知识库,其中包含来自各种科学和历史文本的句子,如下所示:

1. “阿尔伯特·爱因斯坦发展了相对论理论,这一理论彻底改变了理论物理学和天文学。”

2. “相对论理论于20世纪初得到提出,并对我们对于时空的理解产生了深远的影响。”

3. “艾萨克·牛顿以他的运动定律和普遍引力定律而闻名,为经典力学奠定了基础。”

4. “1915年,爱因斯坦提出了广义相对论,对他早期的特殊相对论进行了拓展。”

5. “牛顿在17世纪的工作为现代物理学的许多理论提供了基础。”

在RAG系统中,这些句子将被存储为非结构化文本。比如,问“17世纪的科学贡献如何影响了20世纪初的物理学?”可能会使系统陷入困境,如果文档的确切措辞和检索质量未能直接将17世纪的影响与20世纪初的物理学联系起来。RAG可能给出以下答案:“艾萨克·牛顿在17世纪的工作为现代物理学奠定了基础。阿尔伯特·爱因斯坦在20世纪初发展了相对论理论”,因为机制能够检索相关信息,但无法清楚解释17世纪物理学对20世纪初发展的影响。

相比之下,GraphRAG将该文本转化为结构化的知识图谱。知识图谱表示不同事物之间的关系。它使用一组本体,即一组用于帮助组织信息的规则。这样,它可以找到隐藏的连接,而不仅仅是显而易见的连接。使用GraphRAG系统,前面的知识库将转换为如下所示的节点和边。

Nodes: Albert Einstein, theory of relativity, theoretical physics, astronomy, early 20th century, space, time, Isaac Newton, laws of motion, universal gravitation, classical mechanics, 1915, general theory of relativity, special relativity, 17th century, modern physics.
Edges:  
\- (Albert Einstein) - \[developed\](theory of relativity)  
\- (theory of relativity) - \[revolutionized\](theoretical physics)  
\- (theory of relativity) - \[revolutionized\](astronomy)  
\- (theory of relativity) - \[formulated in\](early 20th century)  
\- (theory of relativity) - \[impacted\](understanding of space and time)  
\- (Isaac Newton) - \[known for\](laws of motion)  
\- (Isaac Newton) - \[known for\](universal gravitation)  
\- (Isaac Newton) - \[laid the groundwork for\](classical mechanics)  
\- (general theory of relativity) - \[presented by\](Albert Einstein)  
\- (general theory of relativity) - \[expanded on\](special relativity)  
\- (Newton's work) - \[provided foundation for\](modern physics)

当被问到“17世纪的科学贡献如何影响了20世纪初的物理学?”时,基于GraphRAG的检索器可以识别从牛顿的工作到爱因斯坦的进展的过程,突出了17世纪物理学对20世纪初发展的影响。这种结构化的检索使得答案在语境上更加丰富和准确:“艾萨克·牛顿在17世纪提出的运动定律和万有引力定律为经典力学奠定了基础。这些原理影响了阿尔伯特·爱因斯坦在20世纪初发展的相对论理论,从而扩展了我们对时空的理解。”

在GraphRAG中使用结构化知识图谱增强了大模型回答复杂查询的能力,同时通过提供明确定义的关系来减少产生错误答案的机会,从而使其在开发更可靠和智能的对话式问答系统方面更加有效。将非结构化的知识库转化为结构化图谱还使得GraphRAG能够从信息中获得更深层次的含义,使语言模型能够在上下文中准确生成适当的回答。这是朝着更先进和可靠的聊天机器人系统发展的非常重要的进展。

然而,就像GraphRAG的其他好处一样,也存在着挑战。

首先,构建图谱很困难。将无组织的知识库转化为结构化的知识图谱需要很高的要求。这需要复杂的实体抽取和关系识别方法,这可能非常耗费计算资源。

其次,出现了可扩展性问题。随着知识库的扩大,知识图谱的复杂性也随之增长。如果图谱在运行时变得过大而无法轻松遍历,这可能会对可扩展性提出质疑。一个主要的挑战将是优化用于大规模图谱的图检索算法,如何有效平衡利用知识图谱和大模型结合。

第三个问题涉及到维护开销:知识图谱需要不断更新新的信息和现有数据的变化。在某些领域,尤其是技术或医学领域,这种更新可能变得比较昂贵,因为这些领域知识很可能经常发生变化。这意味着,尽管结果可能是有希望的,但在维护知识图谱的正确性和相关性方面需要付出大量努力,因此对领域知识图谱的自动化更新及运维能力提出了较高要求。

尽管如此,GraphRAG承诺未来将具备更高智能性、可靠性和上下文意识的对话型AI Agent。进一步的研究和开发可以帮助缓解与GraphRAG相关的困难,为更复杂的基于GenAI的解决方案铺平道路。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值