一文梳理RAG（检索增强生成）的现状与挑战

AAI机器之心

于 2024-10-06 14:42:29 发布

阅读量763

点赞数 12

文章标签：人工智能 chatgpt LLM 大模型大语言模型 RAG 检索增强生成

本文链接：https://blog.csdn.net/AAI666666/article/details/142727008

版权

一 RAG简介

大模型相较于过去的语言模型具备更加强大的能力，但在实际应用中，例如在准确性、知识更新速度和答案透明度方面，仍存在不少问题，比如典型的幻觉现象。因此，检索增强生成 (Retrieval-Augmented Generation, RAG) 被当作于大模型应用开发的一种新范式。RAG是指在利用大语言模型回答问题之前，先从外部知识库检索相关信息，然后再让模型根据这些信息进行总结归纳，这样便能确保模型不会胡说八道，并且回答的内容是有所依据的。
尽管这几年大模型发展迅速，但至少还存在以下问题：
● 准确性： LLM是自回归模型，基于前一个词来推测下一个词，这种概率不可避免会产生错误的信息。
● 知识更新速度： LLM训练数据总是有限的，这可能导致模型的知识更新滞后，因此产生过时回答。
● 答案透明度： LLM 生成的内容往往缺乏明确的信息来源，影响内容的可信度。
● 领域专业知识能力欠缺： LLM在预训练阶段是由各种领域的数据训练得到，这些数据一般分布都比较均匀，没有哪个领域的数据占据了绝对优势，因此在处理特定领域的专业知识时，效果往往不会太好。

二 RAG与微调效果对比

性能对比	RAG	微调
知识更新速度	直接更新知识库内容即可，无需重新训练，更新成本低	需要重新训练来保持知识和数据的更新，更新成本高
专业性	取决于知识库中的数据，无明显专业性倾向	针对某一领域数据微调后，可以具备一定的专业性
可解释性	可以追溯到具体的数据来源，有较好的可解释性	可解释性相对较低，回答质量取决于预训练的数据质量
计算资源	需要额外的资源来支持检索机制和数据库的维护，如向量化模型和向量知识库。	对计算资源的要求较高，取决于微调的数据量
推理延迟	增加了输入向量化和检索步骤的耗时	普通 LLM 推理耗时
降低幻觉	通过检索到的真实信息生成回答，降低了产生幻觉的概率	模型学习特定领域的数据有助于减少幻觉，但面对未见过的输入时仍可能出现幻觉

三、RAG 的工作流程

不同学者对RAG的定义略有不同，但公认一般至少包含如下两个阶段。

检索阶段

根据用户的输入，使用向量模型将查询内容转换为向量，计算查询向量与知识库中文档块向量之间的相似性，并根据相似度水平选出最相关的前 K 个文档块作为当前问题的补充信息。

生成阶段

将给定的问题与检索到的补充信息合并，构造出一个新的Prompt，让大模型根据提供的信息来回答问题的任务。

四、RAG的局限性

检索过程

RAG的检索质量受到多个指标的影响。首要是低精确率（precision），即检索到的文档块中有些与查询并不直接相关，可能导致生成的回答包含不准确的信息。其次是召回率（recall）低的问题，即未能检索到所有相关的文档块，限制了生成模型获取足够的背景信息来构造完整的答案。此外，数据的过时性也是一个重要挑战，如何知识库更新频率非常高，那么知识库中可能会存在大量过时的信息，这些过时数据可能会误导模型，产生不准确的响应。

生成过程

RAG在生成过程同样面临多个问题。当检索到的信息不足时（即前面提到的召回不足），模型有可能虚构信息，根据已有的上下文生成不正确内容。另一个常见问题是不相关回答，即模型生成的答案未能准确回应用户的查询，这是因为模型无法理解检索到的知识内容与用户查询是否有关系导致。

构造prompt过程

假设已经检索到相关的知识内容，并且不存在低精确率和低召回情况，如何根据这些知识内容构造合适的prompt来引导模型回答又是另一个难点。有研究表明，根据知识内容的相关性进行间隔排序可能效果最好，即：chunk1,chunk3,chunk5,chunk4,chunk2。按照用户查询与知识内容的相关性排序为：chunk1>chunk2>chunk3>chunk4>chunk5。这种情况下只有5个知识内容，模型可能还能全部理解，当知识内容更多的时候，就无法保证召回的知识内容都能学习到。此外，当多个检索到的知识内容包含相似信息时，容易出现冗余和重复的问题，导致生成内容的重复和冗长，可能还会降低模型的回答效果。

知识库检索和维护

RAG在应用中涉及到多次检索和生成过程，通常对服务器计算资源和网络响应有较高要求，如果RAG涉及到多个智能体协同，可能还会进一步增加服务器的压力。此外，为了确保检索的准确性，知识库需要定期更新和清理。如果知识库不够完善或更新不及时，RAG生成的结果可能会基于过时或无关的信息。因此，在设计实际可用的RAG时，需要考虑如何简化知识库更新的操作。

五 RAG性能提升思路

提高检索质量

在建库阶段，可以通过调整块大小和补充额外的元信息来增加知识内容的信息丰富度，并且可以通过微调向量模型来提升模型对知识库的表示能力。在检索时，可以通过增加Rerank模型来对召回的知识内容进行筛选和排序，增强用户查询和知识内容的关联性。

提升生成质量

让模型对知识内容进行判断和筛选，过滤掉无关的知识内容，并且对相关性较高的知识内容进行排序，从而提升回答质量。

其他

减少实时的计算耗时可以采用模型蒸馏，训练更轻量级的模型来加快推理速度，减少计算资源消耗。同时可以采用离线检索或缓存机制，对于高频问题的答案进行预计算和缓存。对于知识库的日常维护，则可以引入自动化的数据更新流程，定期清理过时信息、更新领域知识库，使RAG能够处理最新的领域信息和数据。

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望