RAG 入门指南：从零开始构建一个 RAG 系统

AI小白熊

于 2024-09-05 10:41:18 发布

阅读量368

点赞数 5

文章标签：架构面试职场和发展 transformer 深度学习 agi ai

本文链接：https://blog.csdn.net/2401_85325726/article/details/141924936

版权

本文正文字数约 3300 字，阅读时间 10 分钟。

从零开始构建一个应用可以让我们快速理解应用的各个部分。

这个方法其实非常适用于 RAG。

我在以前的文章中有介绍过 RAG 的概念、原理以及应用等，但其实，亲自动手来构建一个 RAG 系统或许能够让我们更快速的理解 RAG 到底是什么。

本文将为读者提供一个从零开始搭建一个 RAG 应用的入门教程。

RAG 简介

在开始之前，我还是打算再次简要的介绍一下 RAG。

在 Meta 的官方 Blog 上有这样一段话：

Building a model that researches and contextualizes is more challenging, but it’s essential for future advancements. We recently made substantial progress in this realm with our Retrieval Augmented Generation (RAG) architecture, an end-to-end differentiable model that combines an information retrieval component (Facebook AI’s dense-passage retrieval system) with a seq2seq generator (our Bidirectional and Auto-Regressive Transformers BART model). RAG can be fine-tuned on knowledge-intensive downstream tasks to achieve state-of-the-art results compared with even the largest pretrained seq2seq language models. And unlike these pretrained models, RAG’s internal knowledge can be easily altered or even supplemented on the fly, enabling researchers and engineers to control what RAG knows and doesn’t know without wasting time or compute power retraining the entire model.

这段话主要讲述了一个新的模型架构，也就是 RAG (检索增强生成) 的重要性和优势。可以概括为以下几点：

1. 构建一个能够进行研究和上下文分析的模型虽然更具挑战性，但对未来的技术进步非常关键；
2. 通过在知识密集的下游任务上微调，RAG 可以实现最先进的结果，比现有的最大的预训练序列到序列语言模型还要好；
3. 与传统的预训练模型不同，RAG 的内部知识可以轻松地动态更改或补充。也就是说，研究人员和工程师可以控制 RAG 知道和不知道的内容，而不需要浪费时间或计算资源重新训练整个模型。

这段话信息量很大，但是作为初学者，简而言之：

RAG 的本质是在传递给 LLM 的提示语中，通过一个检索工具来添加自己的数据。

接下来，我们就要开始准备我们的 RAG 应用了。

RAG 系统的高层组件

• 一组文档，正式说法为语料库
• 用户输入
• 语料库和用户输入之间的相似性度量

这是简化版的 RAG 组件系统，我们不需要考虑向量存储，甚至目前还不需要 LLM。

以下是一篇 RAG 论文中的系统概述：

它假设了很多背景信息，比我们预设的简化版要复杂的多。

对于想要深入研究的人来说，这篇论文很有价值，但是对于我们想要入门的人来说，通过一步一步构建自己的 RAG 系统来学习才更适合。

RAG 系统的查询步骤

1. 查询用户输入
1. 进行相似性度量
1. 对用户输入和检索到的文档进行后处理

这里的后处理即将检索到的文档和用户输入发送给 LLM 进行处理，最终生成回答。

相似性度量是指用来评估两个对象之间相似程度的方法。在文本处理和信息检索中，相似性度量可以帮助我们确定两个文本之间的相似度。在 RAG 系统中，我们可以使用这些相似性度量方法之一来比较用户输入和文档集合中的每个文档，从而找到最相关的文档。

从零开始构建 RAG 系统

现在，我们将以一个具体的案例从零开始来构建一个 RAG 系统。

以下是简化版的流程图。

以下是具体步骤。

获取文档集合

我们首先定义一个简单的文档语料库。

corpus_of_documents = [       "Take a leisurely walk in the park and enjoy the fresh air.",       "Visit a local museum and discover something new.",       "Attend a live music concert and feel the rhythm.",       "Go for a hike and admire the natural scenery.",       "Have a picnic with friends and share some laughs.",       "Explore a new cuisine by dining at an ethnic restaurant.",       "Take a yoga class and stretch your body and mind.",       "Join a local sports league and enjoy some friendly competition.",       "Attend a workshop or lecture on a topic you're interested in.",       "Visit an amusement park and ride the roller coasters."   ]

定义和执行相似性度量

现在我们需要一种方法来衡量我们将要接收的用户输入与我们组织的文档集合之间的相似性。

可以说，最简单的相似性度量是杰卡德相似性。

杰卡德相似性（Jaccard Similarity）是一种衡量两个集合相似程度的简单方法。它计算两个集合的交集和并集的比例，用于比较两个文本之间的相似性。简而言之就是，杰卡德相似性看两个集合中共同元素的数量占所有元素的总数量的比例。

对语料库进行预处理

由于我们需要进行相似性度量，所以需要将字符串处理成集合。

我们可以使用最简单的方式来进行预处理，也就是将字符串转换为小写并按照空格分割。

# 将语料库字符串按照空格分割，并返回杰卡德相似性的结果   def jaccard_similarity(query, document):       query = query.lower().split(" ")       document = document.lower().split(" ")       intersection = set(query).intersection(set(document))       union = set(query).union(set(document))       return len(intersection)/len(union)

然后，我们需要定义一个函数，该函数接受用户的精确查询和我们的语料库，并根据相似性的结果将最匹配的文档返回给用户。

def return_response(query, corpus):       similarities = []       for doc in corpus:           similarity = jaccard_similarity(user_input, doc)           similarities.append(similarity)       return corpus_of_documents[similarities.index(max(similarities))]

现在，我们可以试着运行一下。

定义用户查询输入。

user_input = "I like to hike"

将输出的结果打印出来。

print(return_response(user_input, corpus_of_documents))

如果不想在自己电脑上配置 Python 环境，可以直接使用线上的 Python 编辑器，比如：https://www.programiz.com/python-programming/online-compiler/

至此，我们已经构建出了一个最基本的 RAG 系统。

相似性问题

由于我们选择了一个非常简单的相似性度量方法来学习，所以会带来一些问题。

它没有语义概念，只是简单地看两个文档中有哪些词，然后进行对比。

也就是说，只要我们提供的用户输入里包含这些词，那么我们就会得到相同的结果，因为那就是最接近的文档。

比如，我将用户输入换成了 user_input = "I don't like to hike"。

输出结果和上文的输出结果一样。

这是一个在 RAG 中会经常遇到的话题，我们会在后面解决这个问题。

目前，我们还没有对我们检索到的文档进行任何后处理。只是实现了 RAG 的「检索」功能。

下一步是通过结合 LLM 来增强生成。

添加 LLM

要方便快捷的添加 LLM，我们可以直接在本地机器上运行一个开源的 LLM。

这里，我将使用 Ollama 的 Llama 3.1 模型。当然，你也可以使用 OpenAI 的 GPT-4 或 Anthropic 的 Claude 或者其他 LLM。

可以到 ollama 官网下载安装自己想要的 LLM：https://ollama.com/

现在，我们需要对代码做些修改了。

如果是在本地运行 LLM，那么，你需要在自己电脑上配置好 Python 相关的环境，这样在后续步骤中，才能将代码运行起来。

现在，需要引入一些库。

import requests   import json

我们的步骤会有所变化：

1. 获取用户输入；
2. 获取最相似的文档（通过我们的相似性度量来衡量）；
3. 将这个文档作为提示语传递给 LLM；
4. 最后将结果返回给用户。

user_input = "I like to hike"   relevant_document = return_response(user_input, corpus_of_documents)   full_response = []      prompt = """   You are a bot that makes recommendations for activities. You answer in very short sentences and do not include extra information.   This is the recommended activity: {relevant_document}   The user input is: {user_input}   Compile a recommendation to the user based on the recommended activity and the user input.   """

定义好以上步骤之后，我们现在来调用 Ollama 的 API。

在编辑此代码之前，你需要先运行 LLM 在后台，直接在命令行里输入 ollama serve 即可。

url = 'http://localhost:11434/api/generate'   data = {       "model": "llama3.1",       "prompt": prompt.format(user_input=user_input, relevant_document=relevant_document)   }   headers = {'Content-Type': 'application/json'}   response = requests.post(url, data=json.dumps(data), headers=headers, stream=True)   try:       count = 0       for line in response.iter_lines():           if line:               decoded_line = json.loads(line.decode('utf-8'))                              full_response.append(decoded_line['response'])   finally:       response.close()      print(''.join(full_response))

运行以上代码，即可看到结果。

现在我们已经从零开始构建了一个完整的 RAG 系统。

现在 LLM 就可以直接帮我们处理上文提到的相似性问题。如果把用户输入改成 I don't like to hike.，那么我们会得到以下这样的回答。

总结以及改进点

尽管我们已经搭建出了一个完整的 RAG 系统，但是，真实场景下的 RAG 系统也许会更加复杂，涉及向量数据库（Vector Database）、嵌入（Embedding）和提示语工程（Prompt Engineering）等。

如果想要更加深入的学习 RAG，你也许需要在此基础之上考虑以下的一些改进点。

1. 文档数量：更多的文档可能意味着更多的推荐，目前，我们只给 LLM 提供一个文档。我们可以输入多个文档作为“上下文”，让模型根据用户输入提供更个性化的推荐。
1. 文档的深度/大小：更高质量的内容和包含更多信息的长文档可能更好。
1. 提供给 LLM 的文档部分：如果我们有更大或更全面的文档，我们可能只想添加这些文档的部分内容，或者多个文档的部分内容，或一些变体。在词汇中，这称为分块（chunking）。
1. 文档存储工具：我们可能会以不同的方式或不同的数据库存储文档。特别是如果我们有大量文档，可能会考虑将它们存储在向量存储中。
1. 相似性度量：我们如何衡量相似性是至关重要的，我们可能需要在性能和全面性之间权衡。
1. 文档和用户输入的预处理：我们可以在将用户输入传递给相似性度量之前进行一些额外的预处理或增强。例如，我们可以使用嵌入将输入转换为向量。
1. 提示语：我们可以对 LLM/模型使用不同的提示语，并根据我们想要的输出进行调整，以获得我们想要的结果。

你可以在我的 GitHub 上获取到本文所有代码：https://github.com/Erichain/ai-application-demos/blob/main/create-rag-from-scratch.py

零基础如何学习大模型 AI

领取方式在文末

为什么要学习大模型？

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术，如自然语言处理和图像识别，正在推动着人工智能的新发展阶段。通过学习大模型课程，可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术，从而提升自己在数据处理、分析和决策制定方面的能力。此外，大模型技术在多个行业中的应用日益增加，掌握这一技术将有助于提高就业竞争力，并为未来的创新创业提供坚实的基础。

大模型典型应用场景

①AI+教育：智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据，提供量身定制的学习方案，提高学习效果。
②AI+医疗：智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像，辅助医生进行早期诊断，同时根据患者数据制定个性化治疗方案。
③AI+金融：智能投顾和风险管理系统帮助投资者做出更明智的决策，并实时监控金融市场，识别潜在风险。
④AI+制造：智能制造和自动化工厂提高了生产效率和质量。通过AI技术，工厂可以实现设备预测性维护，减少停机时间。

⑤AI+零售：智能推荐系统和库存管理优化了用户体验和运营成本。AI可以分析用户行为，提供个性化商品推荐，同时优化库存，减少浪费。

⑥AI+交通：自动驾驶和智能交通管理提升了交通安全和效率。AI技术可以实现车辆自动驾驶，并优化交通信号控制，减少拥堵。

…
这些案例表明，学习大模型课程不仅能够提升个人技能，还能为企业带来实际效益，推动行业创新发展。