实验室 #3：实施 RAG 以构建“与多个 PDF 聊天”应用程序

我爱学AI

于 2024-08-22 10:25:51 发布

阅读量672

点赞数 14

文章标签： pdf 人工智能 python 大语言模型 ai大模型 LLM RAG

本文链接：https://blog.csdn.net/python1234_/article/details/141421486

版权

难度等级：中级 🎖️🎖️

本文将要涵盖的主要内容：

为什么 RAG 重要？
RAG 实际是如何工作的
应用 RAG 构建一个“与多个 PDF 聊天”的应用

1. 为什么 RAG 重要？

在使用像 GPT、Claude、BERT 等 LLM 模型时，您可能遇到以下问题：

模型虚构信息并生成不真实的答案 (幻觉效应)
您希望模型 在您自己的数据源上运行，从文本数据（pdf、doc 等）到各种类型的媒体数据（视频、音频、照片等）
有时，您处理非常长的内容，导致 昂贵的处理成本 或您的账户简单地被封锁 1-2 小时（影响您的生产力）

如果您对上述问题感同身受，是时候了解 RAG 了。

什么是 RAG？

RAG (检索增强生成) 是一种通过从外部资源获取事实来提高生成 AI 模型准确性和可靠性的技术。RAG 是一种重要的技术，因为：

几乎每个 LLM 都可以使用 RAG 连接几乎任何外部资源。
RAG 使您的应用程序对我们的用户更可靠（“信任”）。为什么？因为 RAG 为模型提供了可以引用的来源，就像研究论文中的脚注一样，因此用户可以检查任何声明。这建立了信任。
减少模型错误猜测的可能性，这种现象有时称为幻觉。
最后，RAG 使得这种方法 比使用额外数据集重新训练模型更快且成本更低。并且它允许用户动态更换新的来源。

2. RAG 实际工作原理

从高层次来看，整个 RAG 过程分为两个阶段：

阶段 1（预处理）： 将外部源加载到我们的系统中
阶段 2（推理）： 在 LLM 的支持下为用户的查询生成答案

让我们深入了解这两个阶段

阶段 1：预处理阶段

1. 从外部源加载数据到文本： 这个过程在 langchain 框架的支持下很容易完成。

在上面的例子中，我使用 PyPDFLoader 从 PDF 文件加载数据
在实践中，我还使用其他文档加载器从 YouTube、CSV、Confluence 等加载数据
你可以访问 langchain 官方网站获取所有文档加载器的列表

2. 将文本转换为块： 将文本拆分为小块，以优化信息的处理、存储和检索，同时提高 AI 系统的质量和准确性。

3. 将块嵌入向量数据库： 向量数据库被认为是 RAG 实现堆栈中最常见的方式（在本文中，我也选择了一个可以轻松在本地磁盘上运行的向量数据库，即 Chroma）。选择最佳向量数据库的内容在本文中未涉及。如果你想深入了解这个主题，请查看 SuperLinked 的列表*。*

阶段 2：推理运行时阶段

1. 输入查询（问题）： 输入查询的用户需要得到回答或处理。

2. 嵌入查询： 使用嵌入模型将查询转换为嵌入。

3. 信息检索： 使用查询的向量表示从包含嵌入文本的大型数据库中查找相关文本。

4. 文本生成器： 提取的文本将与原始查询一起用于生成新的答案或文本。生成器（通常是大型语言模型）将结合这些文本段落中的信息生成反馈。

5. 输出（答案）： 创建的文本将作为完整答案返回给用户。

3. 应用 RAG 构建“与多个 PDF 聊天”应用

一旦你了解了 RAG 的工作原理，就该和我一起构建一个“与多个 PDF 聊天”的应用了。并看看我如何将 RAG 应用到实际应用中。

设置

首先，我们需要安装所有包

在这里插入图片描述

将 OPENAI_API_KEY 替换为您自己的密钥，在示例中，我使用了 streamlit secret：

在这里插入图片描述

在 ChromaDB 中创建名为 “chat-with-pdf” 的集合

在这里插入图片描述

为了与集合一起工作，我们将使用函数 get_collection
在这里插入图片描述

阶段 1：预处理阶段

当用户上传一些新文件时：

加载所有新上传的文件
将其内容拆分为块
将块嵌入到 ChromaDB 中，并保存到 ChromaDB

否则，当用户从列表中删除文件时，我们需要删除所有相关的块

在这里插入图片描述

将两个方法合并为一个函数
在这里插入图片描述

第2阶段：推理运行时阶段

创建一个与ChromaDB协作的检索器。检索器是一个接口，能够根据非结构化查询返回文档。
创建一个链条将所有内容连接在一起

在这里插入图片描述

每当你想使用 retriever_chain 时，可以调用 invoke. 例如：

在这里插入图片描述

最终结果：

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

我爱学AI

关注

14
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
实验室 #3：实施 RAG 以构建“与多个 PDF 聊天”应用程序

RAG (检索增强生成)是一种通过从外部资源获取事实来提高生成 AI 模型准确性和可靠性的技术。几乎每个 LLM都可以使用 RAG 连接几乎任何外部资源。RAG 使您的应用程序对我们的用户更可靠（“信任”）。为什么？因为 RAG 为模型提供了可以引用的来源，就像研究论文中的脚注一样，因此用户可以检查任何声明。这建立了信任。减少模型错误猜测的可能性，这种现象有时称为幻觉。最后，RAG 使得这种方法比使用额外数据集重新训练模型更快且成本更低。并且它允许用户动态更换新的来源。
复制链接

扫一扫