本地部署私人知识库的大模型！Llama 3 + RAG +大模型开源教程「动手学大模型应用开发」！

最新推荐文章于 2025-05-26 00:07:29 发布

LLM教程

最新推荐文章于 2025-05-26 00:07:29 发布

阅读量2.8k

点赞数 21

文章标签： llama 人工智能 chatgpt 大模型 LLM 大语言模型大模型教程

本文链接：https://blog.csdn.net/AAI666666/article/details/142824576

版权

在今天的的教程中，我们将打造更加个性化的大模型，可以定制搭载私人知识库的本地大模型！

我们探讨Meta AI 的尖端 Llama 3 语言模型构建强大的检索增强生成（RAG**）来实现。通过利用 Llama 3 和 RAG 技术的功能，我们将创建一个应用程序，允许用户与网页进行交互式对话，检索定制化、私人知识库的相关信息并生成对用户查询的准确响应。在本教程中，我们将深入探讨设置开发环境、加载和处理网页数据、创建嵌入和向量存储以及实现 RAG 链以提供卓越用户体验的分步过程。

什么是Llama 3？

在这里插入图片描述

Llama 3 是由 Meta AI 开发的最先进的语言模型，擅长理解和生成类似人类的文本。

凭借其令人印象深刻的自然语言处理能力，Llama 3 可以理解复杂的查询、提供准确的响应并参与与上下文相关的对话。
它能够处理广泛的主题和处理效率，使其成为构建智能应用程序的理想选择。
想测试Llama 3的威力吗？立即与 Anakin AI 聊天！（它支持任何可用的 AI 模型！

什么是RAG？

检索增强生成（RAG）是一种将信息检索和语言生成相结合以提高问答系统性能的技术。

简单来说，RAG 允许 AI 模型从知识库或文档中检索相关信息，并使用该信息对用户查询生成更准确和上下文适当的响应。
通过利用检索和生成的强大功能，RAG 能够创建智能聊天机器人和问答应用程序，为用户提供高度相关和信息丰富的响应。
对于想要在没有编码经验的情况下运行 RAG 系统的用户，您可以尝试 Anakin AI，在那里您可以使用 No Code Builder 创建很棒的 AI 应用程序！

在这里插入图片描述

运行本地 Llama 3 RAG 应用的先决条件

在开始之前，请确保已安装以下先决条件：

Python 3.7 or higher
Streamlit
ollama
langchain
langchain_community

您可以通过运行以下命令来安装所需的库：

pip install streamlit ollama langchain langchain_community

使用 Llama-3 在本地运行您自己的 RAG 应用程序的分步指南

第 1 步：设置 Streamlit 应用程序

首先，让我们设置 Streamlit 应用程序的基本结构。创建一个名为 app.py 的新 Python 文件，并添加以下代码：

import streamlit as st
import ollama
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import WebBaseLoader
from langchain_community.vectorstores import Chroma
from langchain_community.embeddings import OllamaEmbeddings

st.title("Chat with Webpage 🌐")
st.caption("This app allows you to chat with a webpage using local Llama-3 and RAG")

# Get the webpage URL from the user
webpage_url = st.text_input("Enter Webpage URL", type="default")

此代码设置 Streamlit 应用程序的基本结构，包括标题、说明和供用户输入网页 URL 的输入字段。

步骤 2：加载和处理网页数据

接下来，我们需要从指定的网页加载数据并对其进行处理以供进一步使用。将以下代码添加到 app.py ：

if webpage_url:
    # 1. Load the data
    loader = WebBaseLoader(webpage_url)
    docs = loader.load()
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=10)
    splits = text_splitter.split_documents(docs)

在这里，我们使用 WebBaseLoader from langchain_community 来加载网页数据。然后，我们使用 RecursiveCharacterTextSplitter from langchain 将加载的文档拆分为更小的块。

第 3 步：创建 Ollama 嵌入和矢量存储

为了能够从网页中有效地检索相关信息，我们需要创建嵌入和向量存储。添加以下代码：

    # 2. Create Ollama embeddings and vector store
    embeddings = OllamaEmbeddings(model="llama3")
    vectorstore = Chroma.from_documents(documents=splits, embedding=embeddings)

我们使用 from OllamaEmbeddings langchain_community 类创建 Ollama 嵌入并 llama3 指定模型。然后，我们使用该 Chroma 类创建一个向量存储，传递拆分文档和嵌入。

第 4 步：定义 Ollama Llama-3 模型函数

现在，让我们定义一个函数，该函数利用 Ollama Llama-3 模型根据用户的问题和相关上下文生成响应。添加以下代码：

    # 3. Call Ollama Llama3 model
    def ollama_llm(question, context):
        formatted_prompt = f"Question: {question}\n\nContext: {context}"
        response = ollama.chat(model='llama3', messages=[{'role': 'user', 'content': formatted_prompt}])
        return response['message']['content']

此函数将用户的问题和相关上下文作为输入。它通过组合问题和上下文来格式化提示，然后使用该 ollama.chat 函数使用 Llama-3 模型生成响应。

第 5 步：设置 RAG 链

为了根据用户的问题从向量存储中检索相关信息，我们需要设置 RAG（Retrieval Augmented Generation）链。添加以下代码：

    # 4. RAG Setup
    retriever = vectorstore.as_retriever()

    def combine_docs(docs):
        return "\n\n".join(doc.page_content for doc in docs)

    def rag_chain(question):
        retrieved_docs = retriever.invoke(question)
        formatted_context = combine_docs(retrieved_docs)
        return ollama_llm(question, formatted_context)

    st.success(f"Loaded {webpage_url} successfully!")

在这里，我们使用该 as_retriever 方法从向量存储创建一个检索器。我们定义了一个帮助程序函数 combine_docs ，将检索到的文档组合成一个格式化的上下文字符串。该 rag_chain 函数接受用户的问题，使用检索器检索相关文档，将文档组合到格式化的上下文中，并将问题和上下文传递给 ollama_llm 函数以生成响应。

第 6 步：实现聊天功能

最后，让我们在 Streamlit 应用程序中实现聊天功能。添加以下代码：

    # Ask a question about the webpage
    prompt = st.text_input("Ask any question about the webpage")

    # Chat with the webpage
    if prompt:
        result = rag_chain(prompt)
        st.write(result)

此代码添加一个输入字段，供用户询问有关网页的问题。当用户输入问题并提交时，将使用用户的问题调用该 rag_chain 函数。然后，生成的响应将使用 st.write 显示。

最后一步：是时候运行应用程序了！

若要运行该应用，请保存 app.py 文件并打开同一目录中的终端。运行以下命令：

streamlit run app.py

这将启动 Streamlit 应用程序，您可以在 Web 浏览器**中通过提供的 URL 访问它。

结论

你已成功构建了在本地运行的 Llama-3 的 RAG 应用。该应用程序允许用户利用本地 Llama-3 和 RAG 技术的强大功能与网页聊天。用户可以输入网页 URL，应用程序将加载和处理网页数据，创建嵌入和向量存储，并使用 RAG 链检索相关信息并根据用户的问题生成响应。

根据需要添加更多功能、改进用户界面或集成其他功能，您可以随意探索和增强应用程序。

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

动手学大模型应用开发

Github开源教程「动手学大模型应用开发」[1]从实践出发，结合最常见、通用的个人知识库助手项目，深入浅出逐步拆解 LLM 开发的一般流程、步骤，旨在帮助没有算法基础的小白通过一个课程完成大模型开发的基础入门。同时，我们也对项目本身做了清晰、全面的逐层规划及封装，实现了不同 LLM API 到项目的统一整合，帮助开发者能够自由、统一调用不同 LLM，充分降低学习门槛。

在这里插入图片描述

内容简介

「动手学大模型应用开发」是一个面向小白开发者的大模型应用开发教程，以个人知识库助手项目为实践目标，通过这个项目完成大模型开发的重点入门。

主要内容包括：

大模型简介，何为大模型、大模型特点是什么、LangChain 是什么，针对小白开发者的简单介绍；
如何调用大模型 API，本节介绍了国内外知名大模型产品 API 的多种调用方式，包括调用原生 API、封装为 LangChain LLM、封装为 Fastapi 等调用方式，同时将包括百度文心、讯飞星火、智谱AI等多种大模型 API 进行了统一形式封装；
大模型开发流程及架构，大模型应用开发的基本流程、一般思想和「动手学大模型应用开发」的架构分析；
数据库搭建，不同类型知识库文档的加载、处理，向量数据库的搭建；
Prompt 设计，如何设计 Prompt 来让大模型完成特定任务，Prompt Engineering 的原则和技巧有哪些；
验证迭代，大模型开发如何实现验证迭代，一般的评估方法有什么；
前后端开发，如何使用 Gradio、FastAPI 等框架快速开发大模型 Demo，展示应用能力。

该教程为入门级，对学习者的人工智能基础、算法基础没有任何要求，仅需要掌握基本 Python 语法、掌握初级 Python 开发技能即可。

示例章节演示

大模型开发的整体流程

教程中提到，一般可以将大模型开发分解为以下几个流程：

在这里插入图片描述

开发流程

确定目标。在进行开发前，我们首先需要确定开发的目标，即要开发的应用的应用场景、目标人群、核心价值。对于个体开发者或小型开发团队而言，一般应先设定最小化目标，从构建一个 MVP（最小可行性产品）开始，逐步进行完善和优化。
设计功能。在确定开发目标后，需要设计本应用所要提供的功能，以及每一个功能的大体实现逻辑。虽然我们通过使用大模型来简化了业务逻辑的拆解，但是越清晰、深入的业务逻辑理解往往也能带来更好的 Prompt 效果。同样，对于个体开发者或小型开发团队来说，首先要确定应用的核心功能，然后延展设计核心功能的上下游功能；例如，我们想打造一款个人知识库助手，那么核心功能就是结合个人知识库内容进行问题的回答，那么其上游功能的用户上传知识库、下游功能的用户手动纠正模型回答就是我们也必须要设计实现的子功能。
搭建整体架构。目前，绝大部分大模型应用都是采用的特定数据库+ Prompt + 通用大模型的架构。我们需要针对我们所设计的功能，搭建项目的整体架构，实现从用户输入到应用输出的全流程贯通。一般来说，我们推荐基于 LangChain 框架进行开发。LangChain 提供了 Chain、Tool 等架构的实现，我们可以基于 LangChain 进行个性化定制，实现从用户输入到数据库再到大模型最后输出的整体架构连接。
搭建数据库。个性化大模型应用需要有个性化数据库进行支撑。由于大模型应用需要进行向量语义检索，一般使用诸如 chroma 的向量数据库。在该步骤中，我们需要收集数据并进行预处理，再向量化存储到数据库中。数据预处理一般包括从多种格式向纯文本的转化，例如 pdf、markdown、html、音视频等，以及对错误数据、异常数据、脏数据进行清洗。完成预处理后，需要进行切片、向量化构建出个性化数据库。
Prompt Engineering。优质的 Prompt 对大模型能力具有极大影响，我们需要逐步迭代构建优质的 Prompt Engineering 来提升应用性能。在该步中，我们首先应该明确 Prompt 设计的一般原则及技巧，构建出一个来源于实际业务的小型验证集，基于小型验证集设计满足基本要求、具备基本能力的 Prompt。
验证迭代。验证迭代在大模型开发中是极其重要的一步，一般指通过不断发现 Bad Case 并针对性改进 Prompt Engineering 来提升系统效果、应对边界情况。在完成上一步的初始化 Prompt 设计后，我们应该进行实际业务测试，探讨边界情况，找到 Bad Case，并针对性分析 Prompt 存在的问题，从而不断迭代优化，直到达到一个较为稳定、可以基本实现目标的 Prompt 版本。
前后端搭建。完成 Prompt Engineering 及其迭代优化之后，我们就完成了应用的核心功能，可以充分发挥大语言模型的强大能力。接下来我们需要搭建前后端，设计产品页面，让我们的应用能够上线成为产品。前后端开发是非常经典且成熟的领域，此处就不再赘述，我们将主要介绍两种快速开发 Demo 的框架：Gradio 和 Streamlit，可以帮助个体开发者迅速搭建可视化页面实现 Demo 上线。
体验优化。在完成前后端搭建之后，应用就可以上线体验了。接下来就需要进行长期的用户体验跟踪，记录 Bad Case 与用户负反馈，再针对性进行优化即可。