【智泊AI】一文讲清RAG：检索、增强、生成

最新推荐文章于 2025-04-27 10:50:57 发布

智泊AI

最新推荐文章于 2025-04-27 10:50:57 发布

阅读量707

点赞数 12

文章标签：人工智能 AI大模型 AIGC RAG

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/javatiange/article/details/146560601

版权

RAG(Retrieval-Augmented Generation，检索增强生成)是融合检索技术与生成模型的人工智能框架‌。

在这里插入图片描述
其核心机制在于通过语义检索从外部知识库或实时数据源中获取关联信息，并将检索结果作为上下文增强提示(Prompt)输入大语言模型(LLMs)‌，从而显著提升模型在知识密集型任务中的表现，典型应用包括开放域问答、多轮对话生成、长文本摘要及个性化内容创作等领域‌。

在这里插入图片描述
该技术架构最初由Meta AI研究院(FAIR)在2020年提出‌，凭借其突破传统模型知识更新瓶颈的优势，已成为当前AI工程化部署的主流解决方案之一‌。

一、检索增强生成(RAG)

RAG是什么？RAG（Retrieval-Augmented Generation）即检索增强生成技术，是当前人工智能领域的前沿框架。

在这里插入图片描述
该技术通过将结构化检索系统（如知识图谱、文档数据库）与生成式大语言模型深度融合，构建起"检索-生成"双引擎协作机制。

当LLM进行文本创作时，可实时调用检索系统获取外部知识库中的最新数据，将经过验证的事实信息与模型本身的语义理解能力相结合，从而生成内容可信度更高、信息更新鲜且更贴合用户场景的优质文本。

在这里插入图片描述
这种架构既保留了LLM强大的语言表达能力，又通过外部知识注入有效弥补了模型固有知识滞后和事实性幻觉的缺陷，在智能问答、文档摘要等场景中展现出显著优势。

怎么理解RAG？通过上一个问题，我们了解到RAG是一种结合了信息检索、文本增强和文本生成的自然语言处理(NLP)的技术。

RAG的目的是通过从外部知识库检索相关信息来辅助大语言模型生成更准确、更丰富的文本内容。那我们怎么理解RAG的检索、增强和生成呢?

1.检索：在RAG（Retrieval-Augmented Generation）技术框架中，信息检索作为流程的初始环节，承担着从结构化知识库中筛选关联性内容的核心任务。

该阶段通过运用向量空间匹配或语义相似度计算等技术手段，旨在为后续的生成模块提供精准的领域知识锚点和多维度的上下文参照系，从而确保生成内容的准确性与事实一致性。

在这里插入图片描述
2.增强：RAG框架的增强机制是指将检索子系统获取的相关文档作为先验知识注入生成模型的解码端，以此突破大模型参数化知识的局限性。

该技术路径通过构建"检索-生成"协同范式，能够有效解决知识密集型任务中的信息实时性和准确性难题。

在这里插入图片描述
具体而言，系统会在解码阶段动态整合外部数据源的语义片段，使得生成式AI在保持语言流畅性的同时，具备事实核查和领域适配能力。

这种知识增强策略不仅提升了模型输出的信息密度，更重要的是建立了可追溯的知识引用机制，从根本上改善了神经网络生成内容的可信度与可解释性。

3.生成：RAG流程的最终阶段是生成环节，其核心目标在于运用大语言模型的能力输出符合用户诉求的响应内容。

在具体实现中，生成模块将知识库检索系统获取的相关信息作为上下文输入，通过大语言模型的语义理解与文本生成能力进行内容创作。

在这里插入图片描述
在"检索-增强-生成"的三元架构中，知识库的检索结果（问答对）实质上是作为增强要素注入到初始提示模板中，经过语义增强的提示信息（prompt）才是大语言模型进行答案生成的基础原料。

整个流程中，知识库系统承担信息筛选职责，大语言模型扮演内容生产者角色，这种分工协作机制有效突破了传统生成模型的知识局限性。

那我们如何使用RAG呢？接下来以RAG搭建知识问答系统为例，来讲解如何使用RAG：

在这里插入图片描述
1.数据准备与知识库构建:

收集数据：首先，需要收集与问答系统相关的各种数据，这些数据可以来自文档、网页、数据库等多种来源。

数据清洗：对收集到的数据进行清洗，去除噪声、重复项和无关信息，确保数据的质量和准确性。

知识库构建：将清洗后的数据构建成知识库。通常包括将文本分割成较小的片段(chunks)，使用文本嵌入模型(如GLM)将这些片段转换成向量，并将这些向量存储在向量数据库(如FAISS、Milvus等)中。

在这里插入图片描述
2.检索模块设计:

问题向量化：当用户输入查询问题时，使用相同的文本嵌入模型将问题转换成向量。

相似度检索：在向量数据库中检索与问题向量最相似的知识库片段(chunks)。这通常通过计算向量之间的相似度(如余弦相似度)来实现。

结果排序：根据相似度得分对检索到的结果进行排序，选择最相关的片段作为后续生成的输入。

在这里插入图片描述
3.生成模块设计:

上下文融合：将检索到的相关片段与原始问题合并，形成更丰富的上下文信息。

大语言模型生成：使用大语言模型(如GLM)基于上述上下文信息生成回答。大语言模型会学习如何根据检索到的信息来生成准确、有用的回答。

大家可以结合自己的业务领域知识，开始搭建医疗、法律、产品知识问答。先搭建Demo，然后工作中不断完善知识库问答对。

在这里插入图片描述
二、RAG的原理、流程及架构

RAG工作原理是什么？

大型语言模型(LLM)面临两个问题，第一个问题是LLM会产生幻觉，第二个是LLM的知识中断。

1.知识截止：当 LLM 返回的信息与模型的训练数据相比过时时。每个基础模型都有知识截止，这意味着其知识仅限于训练时可用的数据。

2.幻觉：当模型自信地做出错误反应时，就会发生幻觉。

检索增强生成(RAG) 摆脱了知识限制，整合了外部数据，从外部知识库中检索相关信息，增强模型的生成能力。

在这里插入图片描述
RAG工作流程是什么？通过检索增强技术，将用户查询与索引知识融合，利用大语言模型生成准确回答。

1.知识准备：收集并转换知识文档为文本数据，进行预处理和索引

2.嵌入与索引：使用嵌入模型将文本转换为向量，并存储在向量数据库中

3.查询检索：用户查询转换为向量，从数据库中检索相关知识

4.提示增强：结合检索结果构建增强提示模版

5.生成回答：大语言模型根据增强模版生成准确回答

在这里插入图片描述
RAG技术架构是什么？

RAG技术架构主要由两个核心模块组成，检索模块(Retriever)和生成模块(Generator)。

1.检索模块(Retriever)：

文本嵌入：使用预训练的文本嵌入模型(如GLM)将查询和文档转换成向量表示，以便在向量空间中进行相似度计算。

向量搜索：利用高效的向量搜索技术(如FAISS、Milvus等向量数据库)在向量空间中检索与查询向量最相似的文档或段落。

在这里插入图片描述
双塔模型：检索模块常采用双塔模型(Dual-Encoder)进行高效的向量化检索，双塔模型由两个独立的编码器组成，一个用于编码查询，另一个用于编码文档。这两个编码器将查询和文档映射到相同的向量空间中，以便进行相似度计算。

2.生成模块(Generator)：

强大的生成模型：生成模块通常使用在大规模数据上预训练的生成模型(如GLM)，这些模型在生成自然语言文本方面表现出色。

在这里插入图片描述
上下文融合：生成模块将检索到的相关文档与原始查询合并，形成更丰富的上下文信息，作为生成模型的输入。

生成过程：生成模型根据输入的上下文信息，生成连贯、准确且信息丰富的回答或文本。

结合高效的检索模块(Retriever)与强大的生成模型（Generator）实现基于外部知识增强的自然语言生成能力。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。