检索增强生成RAG范式概述

ASS-ASH

已于 2024-05-22 17:53:32 修改

阅读量1k

点赞数 11

分类专栏：大语言模型文章标签：人工智能大模型 openai RAG 检索增强生成

于 2024-05-22 17:48:48 首次发布

本文链接：https://blog.csdn.net/qq_38563206/article/details/139120880

版权

大语言模型专栏收录该内容

15 篇文章 0 订阅

订阅专栏

RAG是什么

RAG---Retrieval-Augmented Generation是一种结合了信息检索和生成式模型的方法，旨在提高生成式模型在问答、摘要等任务中的表现。它通过在生成式模型中引入一个信息检索模块，可以在生成文本的过程中动态地检索外部知识/知识库，从而提高生成文本的质量和相关性。这种结合信息检索和生成的方法可以有效地利用外部知识来辅助生成模型，使得生成的文本更加准确和丰富。

外部知识/知识库指代的范围是广义的，不仅仅是关系型或非关系型数据库，还可以是外部知识图谱，外部应用或者搜索引擎。

2020 年Lewis等人，在知识密集型 NLP 任务中，提出了一种更灵活的技术，称为检索增强生成（RAG）[参考论文：https://arxiv.org/abs/2005.11401]。在本文中，研究人员将生成模型与检索器模块相结合，以提供来自外部知识源的附加信息，并且这些信息可以很方便的进行更新维护。

简单来说，RAG 对于LLM来说就像学生的开卷考试一样。在开卷考试中，学生可以携带参考材料，例如课本或笔记，可以用来查找相关信息来回答问题。开卷考试背后的想法是，测试的重点是学生的推理能力，而不是他们记忆特定信息的能力。

同样，事实知识与LLM的推理能力分离，并存储在外部知识源中，可以轻松访问和更新：

「参数知识」：在训练期间学习到的知识，隐式存储在神经网络的权重中。

「非参数知识」：存储在外部知识源中，例如向量数据库。

RAG出现的背景

大语言模型LLM对于专有、快速更新的数据没有较好的解决方法，RAG可以弥合LLM常识和专有数据之间的差距。

示例：

LLM基于海量训练数据，将广泛的常识知识存储在神经网络的权重中。然而，当我们在提示大模型生成训练数据之外的知识时，例如最新知识、特定领域知识等，LLM的输出可能会导致事实不准确，这就是我们常说的模型幻觉。如下图所示：

传统的解决方法是通过微调神经网络模型来适应特定领域的专有信息。尽管这种技术很有效，但它属于计算密集型的，并且需要技术专业知识，使其难以灵活地适应不断变化的信息。

LLM主要存在的问题:

//易产生幻觉

LLM底层的设计机制决定了它所生成的回答本质是基于概率的而非既定事实的，再加上LLM也缺乏自己校准自己生成内容的能力（这步工作往往是由人类来做），致使只要生成内容是符合它自己的语言逻辑的，就算内容与事实差了十万八千里，它也会毫不犹豫地输出，在人类看来就是一本正经地胡说八道。幻觉的问题不好从根源上去解决，因为这份概率性也是LLM得以展现出创新性的关键所在，但我们可以通过一些方法增加模型回答的准确性。

//模型训练数据的新鲜度不足

在使用chatgpt时它总会强调自己知道的知识范围只到2021年，这就使得LLM可以应用的场景大大减少。规模越大的模型，它的训练成本也更高，在成本有限的情况下我们无法无限制地使用最新的语料来更新大模型。

//数据安全

目前AI的隐私安全也是一个引起了广泛关注的话题，对于企业来说，是不可能把自己的私人企业数据上传到公网上的大模型的，但这样的话就无法借助大模型解决一些涉及企业数据的问题。

以上这些问题中，数据安全可以通过私有化部署的方式解决，而解决第一和第二个问题的钥匙便是RAG技术。

RAG范式简易图示

形式(一)

如果说原本与大模型交互的方式是直接对LLM进行QA问答，那加入了RAG技术后我们其实是先在知识库中检索出了与问题相关的内容，然后将这些内容与问题一并提交给LLM，我们需要的是让LLM根据我们给出的内容来对问题做出回答，如下图所示。

形式(二)

「检索(Retrive)」根据用户请求从外部知识源检索相关上下文。为此，使用嵌入模型将用户查询嵌入到与向量数据库中的附加上下文相同的向量空间中。这允许执行相似性搜索，并返回矢量数据库中最接近的前 k 个数据对象。

「增强(Augment)」用户查询和检索到的附加上下文被填充到提示模板中。

「生成(Generate)」最后，检索增强提示被馈送到 LLM。

RAG详细架构

RAG的架构如图中所示，简单来讲，RAG就是通过检索获取相关的知识并将其融入Prompt，让大模型能够参考相应的知识从而给出合理回答。因此，可以将RAG的核心理解为“检索+生成”，前者主要是利用向量数据库的高效存储和检索能力，召回目标知识；后者则是利用大模型和Prompt工程，将召回的知识合理利用，生成目标答案。

完整的RAG应用流程主要包含两个阶段：

数据准备阶段：数据提取——>文本分割——>向量化（embedding）——>数据入库

应用阶段：用户提问——>数据检索（召回）——>注入Prompt——>LLM生成答案

下面我们详细介绍一下各环节的技术细节和注意事项：

数据准备阶段：
数据准备一般是一个离线的过程，主要是将私域数据向量化后构建索引并存入数据库的过程。主要包括：数据提取、文本分割、向量化、数据入库等环节。

数据提取：

数据加载：包括多格式数据加载、不同数据源获取等，根据数据自身情况，将数据处理为同一个范式。

数据处理：包括数据过滤、压缩、格式化等。

元数据获取：提取数据中关键信息，例如文件名、Title、时间等。

文本分割：

文本分割主要考虑两个因素：1）embedding模型的Tokens限制情况；2）语义完整性对整体的检索效果的影响。一些常见的文本分割方式如下：

句分割：以”句”的粒度进行切分，保留一个句子的完整语义。常见切分符包括：句号、感叹号、问号、换行符等。

固定长度分割：根据embedding模型的token长度限制，将文本分割为固定长度（例如256/512个tokens），这种切分方式会损失很多语义信息，一般通过在头尾增加一定冗余量来缓解。

向量化（embedding）：

向量化是一个将文本数据转化为向量矩阵的过程，该过程会直接影响到后续检索的效果。目前常见的embedding模型如表中所示，这些embedding模型基本能满足大部分需求，但对于特殊场景（例如涉及一些罕见专有词或字等）或者想进一步优化效果，则可以选择开源Embedding模型微调或直接训练适合自己场景的Embedding模型。

数据入库：