什么是RAG？

特暗游丝

已于 2024-09-02 20:18:09 修改

阅读量941

点赞数 25

文章标签：人工智能深度学习

于 2024-09-01 17:27:36 首次发布

本文链接：https://blog.csdn.net/2301_79969057/article/details/141786700

版权

一、RAG

检索增强生成（Retrieval Augmented Generation，简称RAG）是指对大型语言模型输出进行优化，使其能够在生成响应之前引用训练数据来源之外的权威知识库。大型语言模型（LLM）用海量数据进行训练，使用数十亿个参数为回答问题、翻译语言和完成句子等任务生成原始输出。在 LLM 本就强大的功能基础上，RAG 将其扩展为能访问特定领域或组织的内部知识库，所有这些都无需重新训练模型。这是一种经济高效地改进 LLM 输出的方法，让它在各种情境下都能保持相关性、准确性和实用性。

给模型注入新知识的方式，可以简单分为两种方式，一种是内部的，即更新模型的权重，另一个就是外部的方式，给模型注入格外的上下文或者说外部信息，不改变它的的权重。

第一种方式，改变了模型的权重即进行模型训练，这是一件代价比较大的事情，大语言模型具体的训练过程，可以参考InternLM2技术报告。第二种方式，并不改变模型的权重，只是给模型引入格外的信息。类比人类编程的过程，第一种方式相当于你记住了某个函数的用法，第二种方式相当于你阅读函数文档然后短暂的记住了某个函数的用法。

二、RAG工作原理

RAG模型的工作原理主要通过以下几个步骤实现：

检索：首先，系统会将生成任务的输入（如问题、标题等）编码为向量表示，并在外部知识库（如维基百科、网页等）中查找与输入向量最相似的一组文档。这一步骤通常涉及相似度计算（如余弦相似度）和文档排序。
利用：检索到的文档会被进一步编码为向量表示，并与输入向量进行融合，形成新的上下文向量。这个上下文向量包含了输入信息和检索到的相关信息，为后续的文本生成提供了丰富的背景知识。
生成：最后，系统会根据上下文向量使用生成模型（如Transformer）来生成文本。这个生成过程会综合考虑输入信息和检索到的信息，以生成更准确、更丰富的文本内容。

下图显示了将 RAG 与 LLM 配合使用的概念流程。