AI | 大模型入门:RAG vs KAG

“KAG是什么,与RAG有何不同?

前文AI|大模型入门(四):检索增强生成(RAG)提到,相对于微调技术,RAG是大模型定制化或者私有化部署时知识增强方法的最便捷、成本最低的方式,是一种新数据引入大模型的经济高效的方法,它使生成式人工智能技术更广泛地获得和使用。

前文AI | 大模型入门(九):RAG数据库提到,RAG使用的数据库主要有向量数据库、图数据库、知识图谱、混合架构数据库等。

那么KAG是什么,与RAG有什么不同呢?

KAG是什么

KAG (Knowledge Augmented Generation, 知识增强生成)是基于OpenSPG 引擎和大型语言模型的逻辑推理问答框架,用于构建垂直领域知识库的逻辑推理问答解决方案。

KAG通过直接将结构化知识图或外部知识库融入到大模型体系结构中来增强语言模型的生成能力。

与RAG检索非结构化数据不同,KAG侧重于结构化知识的集成,以提高生成的质量。它基于OpenSPG引擎,解决了传统问答系统的局限性。KAG可以有效克服传统RAG向量相似度计算的歧义性和OpenIE引入的GraphRAG的噪声问题。KAG支持逻辑推理、多跳事实问答等,并且明显优于目前的SOTA方法。

注1:OpenSPG是蚂蚁集团与OpenKG联合推出的基于SPG(Semantic-enhanced Programmable Graph)框架研发的知识图谱引擎。

注2:SOTA(State of the Art)是科技领域描述技术最高水平的术语,指的是最先进的技术或模型。

KAG的目标是在专业领域构建知识增强的大模型服务框架,支持逻辑推理、事实问答等。KAG充分融合了知识图谱(KG)的逻辑性和事实性特点,核心功能有:

  • 知识与Chunk互索引结构,以整合更丰富的上下文文本信息

  • 利用概念语义推理进行知识对齐,缓解OpenIE引入的噪音问题

  • 支持Schema-Constraint知识构建,支持领域专家知识的表示与构建

  • 逻辑符号引导的混合推理与检索,实现逻辑推理和多跳推理问答

KAG 技术架构

KAG技术架构图

RAG与KAG的区别

RAG和KAG都是最先进的增强生成模型能力的方法,但是它们适用于不同类型的任务。RAG擅长于需要检索和合成动态和非结构化数据的开放域任务。而KAG在需要从知识图谱中获得结构化和事实性信息的场景中更有效。

传统RAG依赖向量检索非结构化文本,虽然随着RAG技术的演进和GraphRAG(知识图谱增强的RAG)技术发展,知识图谱已成为优化RAG系统的重要工具。GraphRAG通过引入结构化知识图谱,构建了双引擎检索机制,通过向量检索实现基于文本语义匹配文档块功能,通过图谱检索通过实体关系网络实现多跳推理,例如,在医疗诊断场景中,查询“头痛伴高血压可能风险”时,GraphRAG会通过图谱中的“头痛→高血压→脑卒中”因果链推理,而非仅依赖文本相似性。

但是,RAG对知识图谱的检索召回率并不是特别理想。而KAG则是专门为知识图谱设计的大模型增强技术,因此他们的主要不同有:

1. 知识图谱的应用方式

RAG或GraphRAG使用一般知识图进行检索,但缺乏深度推理。而KAG构建特定领域的知识图谱,并使用高级推理来解释信息。

2. 推理能力

RAG检索数据,但是很难在复杂查询中组合和使用数据。而KAG采用多跳推理将信息进行连接和综合,从而得到准确的答案。

3.处理复杂查询的能力

对于简单的查询,RAG非常有效,但可能会忽略全局。而KAG则擅长将复杂的、特定领域的查询分解并综合答案。

4. 准确性

GraphRAG提高了精度,但在复杂查询中仍然容易出错。相反,KAG通过结合检索、推理和图对齐提供专业级别的准确性。

关键区别:RAG的检索基于文本相似性,而KAG的推理基于知识图谱的逻辑关系。

技术选型

RAG和KAG两者之间的选择取决于要处理的数据类型和任务性质:

对于需要根据各种文档检索和生成答案的通用应用程序,比如需要快速整合动态信息(如新闻、用户评论)的开放领域任务,例如客服聊天机器人、市场趋势分析等,RAG通常是最佳选择。

然而,对于需要基于结构化知识的一致的、基于事实的答案的任务,需严格逻辑和事实验证的专业领域(如法律条文引用、医疗诊断),或涉及多步推理的复杂问题(如“头痛+高血压→脑卒中风险”),那么KAG则可以提供更可靠的方法。

未来趋势:从工具到基础设施

随着大模型应用场景的多元化,对大模型定制化的需求愈发强烈,定制化也是大模型落地应用的必要前提。因此,需要构建一种新型多模数据库,将向量库、图库、关系库进行统一管理,消除现在的割裂状态,实现各类型数据的统一存储,实现查询使用简化操作,同时实现自主知识更新的功能,例如通过冲突检测自动修正知识图谱,实现多模态融合,将图像、视频等非文本数据纳入知识图谱。这种新型多模数据库将是未来大模型应用落地的重要的不可或缺的新型基础设施。

未来,随着多模数据库和自主更新技术的发展,RAG与KAG的边界将进一步消融,推动AI从“信息检索”向“认知理解”进行跃迁。

 一、大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K

70%企业存在"能用模型不会调优"的痛点

真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!

二、如何学习大模型 AI ?


🔥AI取代的不是人类,而是不会用AI的人!麦肯锡最新报告显示:掌握AI工具的从业者生产效率提升47%,薪资溢价达34%!🚀

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)

 

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

*   大模型 AI 能干什么?
*   大模型是怎样获得「智能」的?
*   用好 AI 的核心心法
*   大模型应用业务架构
*   大模型应用技术架构
*   代码示例:向 GPT-3.5 灌入新知识
*   提示工程的意义和核心思想
*   Prompt 典型构成
*   指令调优方法论
*   思维链和思维树
*   Prompt 攻击和防范
*   …

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

*   为什么要做 RAG
*   搭建一个简单的 ChatPDF
*   检索的基础概念
*   什么是向量表示(Embeddings)
*   向量数据库与向量检索
*   基于向量检索的 RAG
*   搭建 RAG 系统的扩展知识
*   混合检索与 RAG-Fusion 简介
*   向量模型本地部署
*   …

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

*   为什么要做 RAG
*   什么是模型
*   什么是模型训练
*   求解器 & 损失函数简介
*   小实验2:手写一个简单的神经网络并训练它
*   什么是训练/预训练/微调/轻量化微调
*   Transformer结构简介
*   轻量化微调
*   实验数据集的构建
*   …

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

*   硬件选型
*   带你了解全球大模型
*   使用国产大模型服务
*   搭建 OpenAI 代理
*   热身:基于阿里云 PAI 部署 Stable Diffusion
*   在本地计算机运行大模型
*   大模型的私有化部署
*   基于 vLLM 部署大模型
*   案例:如何优雅地在阿里云私有部署开源大模型
*   部署一套开源 LLM 项目
*   内容安全
*   互联网信息服务算法备案
*   …

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值