微软PIKE-RAG全面解析：解锁工业级应用领域知识理解与推理

最新推荐文章于 2025-04-20 17:21:36 发布

大靠山

最新推荐文章于 2025-04-20 17:21:36 发布

阅读量853

点赞数 20

文章标签：人工智能算法大数据 neo4j 数据库知识图谱 5G

本文链接：https://blog.csdn.net/m0_59235245/article/details/145939933

版权

近一年来，虽然检索增强生成（Retrieval Augmented Generation, RAG）系统在通过外部检索扩展大语言模型（LLMs）能力方面取得了一定的进展。但它主要依赖于文本检索和LLMs的理解能力，缺乏对多源数据知识的提取、理解和利用，尤其在专业知识较强的领域（如工业应用中）表现出显著的不足。

为了解决这一问题，微软亚洲研究院提出了 PIKE-RAG（sPecIalized KnowledgE and Rationale Augmented Generation）方法，一种”专注于提取、理解和应用领域特定知识，同时构建连贯的思考逻辑，以逐步引导 LLMs 获得准确的响应“的方法，旨在解决以下问题：

1. 知识来源的多样性问题：面对知识知识来源的多样性问题，PIKE-RAG旨在通过构建多层异构图来表示不同层次的信息和知识，从而更好地解决这一问题。
2. 通用性与"一刀切"的问题：不同类型的问题（如简单事实问答与需要多步推理的复杂问题）要求不同的处理策略。现有的 RAG 方法未能充分考虑不同应用场景中的复杂性和特定需求，而采用统一流程，因此无法兼顾所有需求。通过任务分类和系统能力分级，PIKE-RAG 提供了一种能力需求驱动的方案搭建策略，显著提高了系统在不同复杂性问题上的适应能力。
3. LLMs 的领域专业知识不足：在工业应用中，RAG 需要利用专业领域的私有知识和逻辑，但现有方法在应用于专业领域时表现不佳，尤其是在 LLMs 不擅长的领域。PIKE-RAG 通过知识原子化和任务动态分解，增强了对领域特定知识的提取和组织能力。此外，该系统能够自动从系统交互日志中提取领域知识，通过 LLMs 微调将学习到的知识固化下来，以更好地应用于未来的问答任务中。

PIKE-RAG主要技术特征如下：

1. 提出以专业知识和推理为核心增强基础，针对现有检索增强框架的不足，引入一种新范式。该范式根据任务的知识提取、理解和利用难度进行分类，为系统设计与评估提供全新视角，使RAG能力分层，支持分阶段开发，尤其提升其在工业应用中的适用性。
2. PIKE-RAG框架聚焦于专业知识提取与推理构建，该框架通过高效提取、理解和组织知识及推理提升系统能力，并能根据不同需求灵活定制，展现出极强的通用性。
3. 提出知识原子化和知识感知的任务分解方法，有效应对复杂问题（如多跳查询）。在多跳基准测试中，特别是在两跳以上场景，性能显著提升。这表明任务分解能将复杂问题拆解为原子问题，实现知识的高效检索与组织，并构建连贯推理以得出准确答案。
4. 设计了一种知识感知的任务分解器训练策略，通过采样上下文并生成多样化交互，收集推理驱动的数据，训练分解器将领域特定推理融入任务分解与求解路径。

—

PIKE-RAG 系统框架

如下图所示，PIKE-RAG是一个多功能且可扩展的 RAG 框架。该框架主要由多个基本模块组成，包括：文件解析、知识提取、知识存储、知识检索、知识组织、以知识为中心的推理，以及任务分解与协调。如下图所示：

其中：

文件解析：将多种格式的领域特定文档转换为机器可读格式，生成文件单元，为后续构建信息源层图谱奠定基础；

知识提取：对文本进行分块处理，生成语料库和知识单元，构建语料层和提炼知识层的图谱，形成可供检索的知识基础；

知识存储：将提取的知识以多种结构化格式保存，确保信息有序、安全且易于访问；

知识检索：采用混合检索策略，从知识库中获取与问题相关的精准信息；

知识组织：对检索到的信息进行加工、整理和结构化（如知识归纳或结构化处理），为推理提供基础；

以知识为中心的推理：基于组织好的知识进行分析和推理，得出中间或最终答案，支持复杂问题求解。

任务分解与协调：将复杂问题分解为可执行步骤（如检索、推理等），生成方案并监督迭代过程，确保逐步完善答案。

通过这种模块化的架构设计，PIKE-RAG 能够根据不同的系统能力需求，通过调整主模块内的子模块，灵活搭建不同的 RAG 方法，从而应对实际场景中的复杂需求。

—

L0 到 L4级分阶段系统构建策略

PIKE-RAG 采用了层次化、分阶段的系统构建与实现策略，每个阶段都有不同的目标和挑战，以确保系统能逐步提升对复杂问题的处理能力。如下图所示：

图中：“PA”表示文件解析、“KE”表示知识提取、“RT”表示知识检索、“KO”表示知识组织、“KR”表示以知识为中心的推理。

如图所示，PIKE-RAG把系统构建分为 L0 到 L4（即知识库构建（L0）、事实型问题模块（L1）、链式推理问题模块（L2）、预测型问题模块（L3）、创造型问题模块（L4））5个阶段，每个阶段都有不同的目标和挑战。

2.1 知识库构建(L0)

L0是RAG系统的起点，专注于打造一个全面且可靠的知识库，为后续的知识检索奠定基础。其核心任务是将特定领域的文档处理成机器可读格式，并整理成异构图，作为高级推理和检索的支撑。L0系统包括三个主要模块：文件解析、知识提取和知识存储，确保知识库既全面又精准。

1. 文件解析

文件解析是处理多样数据源的关键步骤。借助类似LangChain的工具，可以轻松解析多种格式的文本文档，整合异构数据。同时，通过深度学习工具和商业云API，实现OCR和表格提取，将扫描文档转为结构化文本。

针对包含复杂表格和图表的专业文件，建议进行布局分析，并保留图表和图形等多模态元素，并用视觉-语言模型（VLMs）描述这些元素。这样既保持文档完整性，又提升检索效果。

2. 知识组织

知识库构建采用多层异构图结构，清晰展示信息的不同粒度、抽象级别以及关系。如下图所示：

分为信息资源层、语料层和提炼知识层，支持语义理解和高效检索。

信息资源层(Information Resource Layer)：记录各种数据源，用节点和边表示其参照关系，便于交叉验证和推理。
语料层(Corpus Layer)：将文档拆分成章节和分块，同时保留其文档的原始层级结构，表格和图形经大型语言模型（LLMs）总结后融入节点，确保多模态内容可检索。
提炼知识层(Distilled Knowledge Layer)：通过实体识别和关系提取，将语料转化为知识图谱、原子知识和表格知识等结构化形式，支持深度推理。具体提炼方式包括：

知识图谱：使用LLMs提取实体和关系，形成“节点-边-节点”结构，构建图谱。``原子知识：将文本拆成原子语句，结合节点关系生成原子知识。``表格知识：提取具有指定类型和关系的实体对，组合以构建表格知识。

2.2 以事实问题为核心(L1)

L1 基于L0增加了知识检索和组织功能，以提升检索与生成能力。核心挑战在于语义对齐和文本分块：专业术语繁多可能降低分块准确性，不合理分块则会破坏语义完整性并引入干扰。为此，L1 系统引入了更精细的查询分析和基础知识提取模块，扩展架构以支持任务分解、协调及初步知识组织，确保处理复杂查询更高效。

1. 增强分块

分块是将大篇幅文本拆分为小块的过程，主要方法包括固定大小分块、语义分块和混合分块。合理分块能提升检索效率与准确性，直接影响系统性能。分块在 L1 系统中有双重作用：

一是作为向量化的信息单元存储供检索；
二是为后续知识提取和摘要提供基础。

不当分块会丢失语义信息，尤其在法律法规等场景中，固定大小分块常破坏上下文，影响提取质量。分块过程如下图所示：

该文本分割算法将大文档拆成小块，同时保留上下文并并为每个分块生成有效的摘要。

给定源文本，该算法迭代地将文本分割成多个分块。第一次迭代为初始分块生成前向摘要，作为后续分块的上下文依据。每块结合前向摘要生成独立摘要，存储后更新摘要并移除已处理部分，循环至文本全部分解。此外，该算法可以根据文本的内容和结构动态调整分块大小。

2. 自动标签

在特定领域的RAG场景中，语料库多为专业化表达，而用户查询常使用日常语言。例如，在医学问答中，症状描述简单，但语料库用词专业，这种差异导致检索不准。为解决这一问题，自动标签模块通过预处理语料库、以提取全面的领域特定标签集合或建立标签映射规则，缩小查询与文档的差距。

具体方法是利用大型语言模型（LLMs）的能力识别分块中的关键因素，归纳为标签类别，并生成提取提示。在无查询样本时，从语料库提取标签形成集合；有样本时，从查询和答案分块中提取标签，建立跨领域映射。最终，查询标签通过映射优化检索，提升准确性与覆盖率。

3. 多粒度检索

L1 系统支持跨异构知识图的多层、多粒度检索。图中各层（如信息源层、语料库层、提炼知识层）提供不同抽象级别和粒度的知识，查询可映射到整篇文档或具体分块，灵活适配任务需求。系统通过计算查询与节点的相似度，并在各层间传播和聚合信息，确保兼顾广度与深度。

2.3 以链式推理问题为核心(L2)

L2专注于高效检索多源信息并进行复杂推理。为此，它引入了知识提取模块和任务分解协调模块，前者精准提取相关信息，后者将复杂任务拆解为易处理的子任务，提升系统效率，如图所示：

1. 知识原子化

文档分块往往包含多条信息，但任务所需仅为部分子集。传统检索将信息整合于单一分块，效率不高。

为此，知识原子化利用大语言模型（LLMs）为分块生成问题标签，这些问题可由分块回答，覆盖表格、图像等内容。标签与分块组成层次知识库，支持粗细粒度查询，通过问题索引快速定位相关分块。

2. 知识感知任务分解
3. 知识感知任务分解器训练

2.4 以预测性问题为核心(L3)

L3专注于提升预测能力，核心在于高效收集、整理知识，并构建预测依据。系统通过任务分解与协调模块，基于检索到的知识生成预测逻辑，如下图所示：

为支持高级分析和预测，知识组织模块新增了结构化和整理子模块，将原始知识转化为清晰格式。例如，在FDA场景中，药品标签、临床试验等数据被整合进多层知识库，结构化子模块按任务要求整理出药品名称和批准日期，归纳子模块再按日期分类，便于统计和预测。

为解决大语言模型在专业推理上的不足，知识中心推理模块加入了预测子模块，能根据查询和整理后的知识（如每年批准药品数量）推测结果。这不仅限于历史数据回答，还能预测未来趋势，提供更灵活的响应。

L3通过优化知识整理与预测功能，能高效处理复杂动态的知识库。

2.5 以创造性问题为核心(L4)

L4通过引入多代理机制，实现多角度思考。解决创意问题需要结合事实和原理进行创新推理。主要难点在于从知识中提炼逻辑、处理复杂影响因素，并评估开放性问题的答案质量。为此，系统协调多个代理，各具特色地分析和推理，并行整合不同思路，输出全面解决方案。如下图所示：

这种设计支持多样化视角，能有效应对复杂查询，激发新想法而非固定答案。多代理协作不仅深化推理，还为用户提供丰富见解，推动创造性思维和复杂问题的独特解法。

—

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述