迈向高效智能文本生成：RAG、Agent 技术精要总结

本文链接：https://blog.csdn.net/2401_84033492/article/details/137479861

节前，我们组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、参加社招和校招面试的同学，针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何备战、面试常考点分享等热门话题进行了深入的讨论。

合集在这里：《大模型面试宝典》(2024版) 正式发布！

在大模型的工程实践中，我们会发现它有一些局限性，这对我们的落地产生了很大的挑战。今天我们来探讨一下这些局限性以及相应解决方案。

一、大模型的局限性

幻觉问题：LLM 文本生成的底层原理是基于概率的 token by token 的形式，因此会不可避免地产生“一本正经的胡说八道”的情况。

知识盲点于实时性： 大模型通过预训练获得通用语言能力，但不具备专业领域的知识。对某些专业问题无法做出准确回答。有些知识不停的有更新，大模型需要在训练和微调时才能灌入新知识。

记忆力有限： 大语言模型参数量虽然很大，但仍然无法记住大量具体的事实知识。容易在需要记忆的任务上表现不佳。

时效性问题：大语言模型的规模越大，大模型训练的成本越高，周期也就越长。那么具有时效性的数据也就无法参与训练，所以也就无法直接回答时效性相关的问题，例如“帮我推荐几部热映的电影？”。

数据安全问题：通用大语言模型没有企业内部数据和用户数据，那么企业想要在保证安全的前提下使用大语言模型，最好的方式就是把数据全部放在本地，企业数据的业务计算全部在本地完成。而在线的大模型仅仅完成一个归纳的功能

没有外部世界感知： 大语言模型无法感知外部世界，缺少视觉、听觉输入。对涉及感知的问题无法直接建模。

无用户建模： 大语言模型没有建模特定用户的能力，对不同用户给出同样的反应和回复，无法进行个性化的对话。

我们今天会基于上面的LLM的局限性，探讨向量化和RAG的一套解决方案的理论供大家学习和参考。好了，我们先来聊聊数据向量化的问题。

二、数据向量化

文本、图像和音频等非结构化数据缺乏预定义格式，这给传统数据库带来了挑战。为了在人工智能和机器学习应用中利用这些数据，需要使用嵌入将其转换为数字表示。我们先来探讨一个概念：什么是 Embedding**？**

为了储存非结构化数据，我们需要对其进行编码为向量表示，但原始的向量通常高度稀疏，这对计算机的计算和处理不利，Embedding 的主要作用是就将高维的稀疏向量转化为稠密向量以方便对模型进一步处理。具体而言，假设我们将如下字典通过 One-hot 编码：

那么我们就可以用如下矩阵来表示“乐土科技”这个短语：

[ 0 0 0 0 0 1 ]
[ 0 0 0 0 1 0 ]
[ 0 0 0 1 0 0 ]
[ 0 0 1 0 0 0 ]

向量化可以基于传统的NLP的方法有：Word2vec：GloVe（Global Vectors for Word Representation）、FastText。但今天我们来介绍一种新的方式通过大模型（Embedding model）来完成数据向量化。

三、RAG（检索增强生成）技术

传统的方式是问题通过解析后形成问题正文然后传导给大模型，大模型完成回答。RAG又称为“检索增强生成”。搜索内容通过Embeding Model向量化，然后存储到向量化数据库，然后将形成问题的正文给到LLM。LLM返回应答结果。工作原理如下图：

下面详细介绍几种RAG的调用模式：

模式一： 非结构化数据通过Embedding Model把非结构化数据进行embedding存到向量数据库中，然后形成Construct Prompts给到LLM。LLM返回结果给到用户。

模式二： 用户提出问题，下一步把问题通过Embedding Model向量化，然后保存到长时记忆数据库（向量数据库）中，然后调用LLM完成问题的回答，接下来将大模型的回答存到长时记忆数据库中，最后返回给用户。

模式三： 用户问问题，下一步把问题通过Embedding Model向量化，然后从Cache中（向量数据库）查询类似的问题和答案，返回给用户。如果没有命中，则去和LLM交互。然后把LLM的回答存到Cache中，最后把回答返回给用户。

这三种形式就是典型的RAG的调用模式。它可以解决不同类型的数据如何让大模型知道的问题，同时在性能和效率上得到了提高，解决了长时记忆的问题，幻觉问题也有很大改善。

四、RAG-优势、劣势和替代方案

在这里插入图片描述

与预训练或微调基础模型等传统方法相比，RAG 提供了一种经济高效的替代方法。RAG 从根本上增强了大语言模型在响应特定提示时直接访问特定数据的能力。为了说明 RAG 与其他方法的区别，请看下图。雷达图具体比较了三种不同的方法：预训练大语言模型、预训练 + 微调 LLM 、预训练 + RAG LLM。

五、结语

今天我们分享了数据向量化和RAG技术，这些内容可以帮你在遇到大模型的幻觉、记忆问题、时效问题等问题上得到参考。

但我们也知道这还远远不够，真正落地才是大家最关注的。所以后续文章我们也为大家精心准备了LangChain、向量数据库、Agent、MemGPT、Autogen、Self-RAG的实践内容，带领大家做一个落地的SalesGPT项目，帮助大家快速掌握向量化、RAG、Agent技术，将它们应用到你们的实践工作中去。