微软PIKE-RAG全面解析:解锁工业级应用领域知识理解与推理

近一年来,虽然检索增强生成(Retrieval Augmented Generation, RAG)系统在通过外部检索扩展大语言模型(LLMs)能力方面取得了一定的进展。但它主要依赖于文本检索和LLMs的理解能力,缺乏对多源数据知识的提取、理解和利用,尤其在专业知识较强的领域(如工业应用中)表现出显著的不足。

为了解决这一问题,微软亚洲研究院提出了 PIKE-RAG(sPecIalized KnowledgE and Rationale Augmented Generation)方法,一种”专注于提取、理解和应用领域特定知识,同时构建连贯的思考逻辑,以逐步引导 LLMs 获得准确的响应“的方法,旨在解决以下问题:

  • 1. 知识来源的多样性问题:面对知识知识来源的多样性问题,PIKE-RAG旨在通过构建多层异构图来表示不同层次的信息和知识,从而更好地解决这一问题。

  • 2. 通用性与"一刀切"的问题:不同类型的问题(如简单事实问答与需要多步推理的复杂问题)要求不同的处理策略。现有的 RAG 方法未能充分考虑不同应用场景中的复杂性和特定需求,而采用统一流程,因此无法兼顾所有需求。通过任务分类和系统能力分级,PIKE-RAG 提供了一种能力需求驱动的方案搭建策略,显著提高了系统在不同复杂性问题上的适应能力。

  • 3. LLMs 的领域专业知识不足:在工业应用中,RAG 需要利用专业领域的私有知识和逻辑,但现有方法在应用于专业领域时表现不佳,尤其是在 LLMs 不擅长的领域。PIKE-RAG 通过知识原子化和任务动态分解,增强了对领域特定知识的提取和组织能力。此外,该系统能够自动从系统交互日志中提取领域知识,通过 LLMs 微调将学习到的知识固化下来,以更好地应用于未来的问答任务中。

PIKE-RAG主要技术特征如下:

  • 1. 提出以专业知识和推理为核心增强基础,针对现有检索增强框架的不足,引入一种新范式。该范式根据任务的知识提取、理解和利用难度进行分类,为系统设计与评估提供全新视角,使RAG能力分层,支持分阶段开发,尤其提升其在工业应用中的适用性。

  • 2. PIKE-RAG框架聚焦于专业知识提取与推理构建,该框架通过高效提取、理解和组织知识及推理提升系统能力,并能根据不同需求灵活定制,展现出极强的通用性。

  • 3. 提出知识原子化和知识感知的任务分解方法,有效应对复杂问题(如多跳查询)。在多跳基准测试中,特别是在两跳以上场景,性能显著提升。这表明任务分解能将复杂问题拆解为原子问题,实现知识的高效检索与组织,并构建连贯推理以得出准确答案。

  • 4. 设计了一种知识感知的任务分解器训练策略,通过采样上下文并生成多样化交互,收集推理驱动的数据,训练分解器将领域特定推理融入任务分解与求解路径。

01

PIKE-RAG 系统框架

如下图所示,PIKE-RAG是一个多功能且可扩展的 RAG 框架。该框架主要由多个基本模块组成,包括:文件解析、知识提取、知识存储、知识检索、知识组织、以知识为中心的推理,以及任务分解与协调。如下图所示:

图片

其中:

文件解析:将多种格式的领域特定文档转换为机器可读格式,生成文件单元,为后续构建信息源层图谱奠定基础;

知识提取:对文本进行分块处理,生成语料库和知识单元,构建语料层和提炼知识层的图谱,形成可供检索的知识基础;

知识存储:将提取的知识以多种结构化格式保存,确保信息有序、安全且易于访问;

知识检索:采用混合检索策略,从知识库中获取与问题相关的精准信息;

知识组织:对检索到的信息进行加工、整理和结构化(如知识归纳或结构化处理),为推理提供基础;

以知识为中心的推理:基于组织好的知识进行分析和推理,得出中间或最终答案,支持复杂问题求解。

任务分解与协调:将复杂问题分解为可执行步骤(如检索、推理等),生成方案并监督迭代过程,确保逐步完善答案。

通过这种模块化的架构设计,PIKE-RAG 能够根据不同的系统能力需求,通过调整主模块内的子模块,灵活搭建不同的 RAG 方法,从而应对实际场景中的复杂需求。

02

L0 到 L4级分阶段系统构建策略

PIKE-RAG 采用了层次化、分阶段的系统构建与实现策略,每个阶段都有不同的目标和挑战,以确保系统能逐步提升对复杂问题的处理能力。如下图所示:

图片

图中:“PA”表示文件解析、“KE”表示知识提取、“RT”表示知识检索、“KO”表示知识组织、“KR”表示以知识为中心的推理。

如图所示,PIKE-RAG把系统构建分为 L0 到 L4(即知识库构建(L0)、事实型问题模块(L1)、链式推理问题模块(L2)、预测型问题模块(L3)、创造型问题模块(L4))5个阶段,每个阶段都有不同的目标和挑战。

2.1 知识库构建(L0)

L0是RAG系统的起点,专注于打造一个全面且可靠的知识库,为后续的知识检索奠定基础。其核心任务是将特定领域的文档处理成机器可读格式,并整理成异构图,作为高级推理和检索的支撑。L0系统包括三个主要模块:文件解析、知识提取和知识存储,确保知识库既全面又精准。

1. 文件解析

文件解析是处理多样数据源的关键步骤。借助类似LangChain的工具,可以轻松解析多种格式的文本文档,整合异构数据。同时,通过深度学习工具和商业云API,实现OCR和表格提取,将扫描文档转为结构化文本。

针对包含复杂表格和图表的专业文件,建议进行布局分析,并保留图表和图形等多模态元素,并用视觉-语言模型(VLMs)描述这些元素。这样既保持文档完整性,又提升检索效果。

2. 知识组织

知识库构建采用多层异构图结构,清晰展示信息的不同粒度、抽象级别以及关系。如下图所示:

图片

分为信息资源层、语料层和提炼知识层,支持语义理解和高效检索。

  • 信息资源层(Information Resource Layer):记录各种数据源,用节点和边表示其参照关系,便于交叉验证和推理。

  • 语料层(Corpus Layer):将文档拆分成章节和分块,同时保留其文档的原始层级结构,表格和图形经大型语言模型(LLMs)总结后融入节点,确保多模态内容可检索。

  • 提炼知识层(Distilled Knowledge Layer):通过实体识别和关系提取,将语料转化为知识图谱、原子知识和表格知识等结构化形式,支持深度推理。具体提炼方式包括:

知识图谱:使用LLMs提取实体和关系,形成“节点--节点”结构,构建图谱。``原子知识:将文本拆成原子语句,结合节点关系生成原子知识。``表格知识:提取具有指定类型和关系的实体对,组合以构建表格知识。

2.2 以事实问题为核心(L1)

L1 基于L0增加了知识检索和组织功能,以提升检索与生成能力。核心挑战在于语义对齐和文本分块:专业术语繁多可能降低分块准确性,不合理分块则会破坏语义完整性并引入干扰。为此,L1 系统引入了更精细的查询分析和基础知识提取模块,扩展架构以支持任务分解、协调及初步知识组织,确保处理复杂查询更高效。

1. 增强分块

分块是将大篇幅文本拆分为小块的过程,主要方法包括固定大小分块、语义分块和混合分块。合理分块能提升检索效率与准确性,直接影响系统性能。分块在 L1 系统中有双重作用:

  • 一是作为向量化的信息单元存储供检索;

  • 二是为后续知识提取和摘要提供基础。

不当分块会丢失语义信息,尤其在法律法规等场景中,固定大小分块常破坏上下文,影响提取质量。分块过程如下图所示:

图片

该文本分割算法将大文档拆成小块,同时保留上下文并并为每个分块生成有效的摘要。

给定源文本,该算法迭代地将文本分割成多个分块。第一次迭代为初始分块生成前向摘要,作为后续分块的上下文依据。每块结合前向摘要生成独立摘要,存储后更新摘要并移除已处理部分,循环至文本全部分解。此外,该算法可以根据文本的内容和结构动态调整分块大小。

2. 自动标签

在特定领域的RAG场景中,语料库多为专业化表达,而用户查询常使用日常语言。例如,在医学问答中,症状描述简单,但语料库用词专业,这种差异导致检索不准。为解决这一问题,自动标签模块通过预处理语料库、以提取全面的领域特定标签集合或建立标签映射规则,缩小查询与文档的差距。

具体方法是利用大型语言模型(LLMs)的能力识别分块中的关键因素,归纳为标签类别,并生成提取提示。在无查询样本时,从语料库提取标签形成集合;有样本时,从查询和答案分块中提取标签,建立跨领域映射。最终,查询标签通过映射优化检索,提升准确性与覆盖率。

3. 多粒度检索

L1 系统支持跨异构知识图的多层、多粒度检索。图中各层(如信息源层、语料库层、提炼知识层)提供不同抽象级别和粒度的知识,查询可映射到整篇文档或具体分块,灵活适配任务需求。系统通过计算查询与节点的相似度,并在各层间传播和聚合信息,确保兼顾广度与深度。

图片

2.3 以链式推理问题为核心(L2)

L2专注于高效检索多源信息并进行复杂推理。为此,它引入了知识提取模块和任务分解协调模块,前者精准提取相关信息,后者将复杂任务拆解为易处理的子任务,提升系统效率,如图所示:

图片

  • 1. 知识原子化

文档分块往往包含多条信息,但任务所需仅为部分子集。传统检索将信息整合于单一分块,效率不高。

为此,知识原子化利用大语言模型(LLMs)为分块生成问题标签,这些问题可由分块回答,覆盖表格、图像等内容。标签与分块组成层次知识库,支持粗细粒度查询,通过问题索引快速定位相关分块。

  • 2. 知识感知任务分解

  • 3. 知识感知任务分解器训练

2.4 以预测性问题为核心(L3)

L3专注于提升预测能力,核心在于高效收集、整理知识,并构建预测依据。系统通过任务分解与协调模块,基于检索到的知识生成预测逻辑,如下图所示:

图片

为支持高级分析和预测,知识组织模块新增了结构化和整理子模块,将原始知识转化为清晰格式。例如,在FDA场景中,药品标签、临床试验等数据被整合进多层知识库,结构化子模块按任务要求整理出药品名称和批准日期,归纳子模块再按日期分类,便于统计和预测。

为解决大语言模型在专业推理上的不足,知识中心推理模块加入了预测子模块,能根据查询和整理后的知识(如每年批准药品数量)推测结果。这不仅限于历史数据回答,还能预测未来趋势,提供更灵活的响应。

L3通过优化知识整理与预测功能,能高效处理复杂动态的知识库。

2.5 以创造性问题为核心(L4)

L4通过引入多代理机制,实现多角度思考。解决创意问题需要结合事实和原理进行创新推理。主要难点在于从知识中提炼逻辑、处理复杂影响因素,并评估开放性问题的答案质量。为此,系统协调多个代理,各具特色地分析和推理,并行整合不同思路,输出全面解决方案。如下图所示:

图片

这种设计支持多样化视角,能有效应对复杂查询,激发新想法而非固定答案。多代理协作不仅深化推理,还为用户提供丰富见解,推动创造性思维和复杂问题的独特解法。

03

相关案例介绍

PIKE-RAG框架及其分阶段开发策略显著增强了RAG系统的能力与适用性,为工业场景中的复杂任务提供了高效解决方案。微软官方网站通过医药领域的4个案例,介绍了 PIKE-RAG 系统在不同能力侧重下的应用与优化:

3.1 侧重事实信息检索能力的系统流程

任务示例:“查询某位病人在某日的就诊记录”

在此流程中需要重点关注的挑战是:知识的理解和提取常因不恰当的知识分块而受阻,导致语义连贯性被破坏,检索过程复杂且低效;常用的基于嵌入模型的知识检索会受到嵌入模型在对齐专业术语和别名方面的局限性影响,使得系统精准度降低。如下图所示,PIKE-RAG 在知识抽取过程中可以使用具备上下文感知能力的分片技术、自动的术语标签对齐技术以及多粒度的知识抽取方法等模块,提高知识抽取和检索的准确度,增强事实信息的检索能力。

侧重事实信息检索能力的系统流程

3.2 侧重事实信息检索和链接能力的系统流程

任务示例:“查询并总结某位病人近五年的就诊情况”

相较于信息检索能力,信息的链接不仅需要有效的知识提取和利用,同时还需要系统具备较强的领域相关知识,能够准确理解任务并对其进行合理的分解。为了达到这一目标,PIKE-RAG 可以在上述流程中增加任务分解模块,分步骤地从知识库中提取相关的知识并进行链接,直至给出最终回答。

侧重事实信息检索和链接能力的系统流程

3.3 侧重基于事实进行推理预测能力的系统流程

任务示例:“根据某位病人的病情描述,推测其最可能患的疾病”

基于事实进行推理预测的任务在考验系统组织、收集、检索信息能力的同时,还要求 LLMs 能够准确理解这些信息,并结合自身掌握的领域知识进行合理推理和预测。为此需要在知识组织阶段增加对结构化知识的提取和整理,例如从过往的非正式病情描述中提取专业的病症描述,并与确诊的疾病和治疗手段进行映射。实验发现,相较于原始的病情描述,结构化、标准化的病例能够显著提升 LLMs 的推断预测能力。

侧重基于事实进行推理预测能力的系统流程

3.4 侧重基于事实进行创新生成能力的系统流程

任务示例:“根据某位病人的病情描述,建议合理的治疗方案和应对措施”

LLMs 在处理领域知识时,需要从复杂知识库中提取逻辑推理并关联多个因素,这对其理解力要求较高。创造性问题开放性强,评估答案质量困难。为了更准确地回答此类问题,我们引入了多智能体规划能力,通过不同角色模拟,从更多视角检索知识。例如,在医疗诊断中,不同科室的智能体医生可以提供更全面的治疗建议。

侧重基于事实进行创新生成能力的系统流程

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值