如何构建本地RAG应用：详细指南

最新推荐文章于 2025-03-10 22:54:17 发布

afTFODguAKBF

最新推荐文章于 2025-03-10 22:54:17 发布

阅读量759

点赞数 4

文章标签： python

本文链接：https://blog.csdn.net/afTFODguAKBF/article/details/142907579

版权

引言

随着大规模语言模型（LLMs）和检索增强生成（RAG）技术的普及，许多开发者希望在本地运行这些模型，以提高灵活性和数据安全性。本文将指导你如何使用Ollama在本地运行LLaMA 3.1以及如何利用本地嵌入和向量存储来构建一个RAG应用。

主要内容

设置环境

首先需要设置Ollama。你可以从Ollama的GitHub页面下载并运行其桌面应用，并通过命令行获取模型：

ollama pull llama3.1:8b # 下载通用模型
ollama pull nomic-embed-text # 下载文本嵌入模型

确保所有模型在 localhost:11434 上被服务。

安装所需的Python包：

# 文档加载，检索方法和文本切分
%pip install -qU langchain langchain_community

# 本地向量存储（通过Chroma）
%pip install -qU langchain_chroma

# 本地推理和嵌入（通过Ollama）
%pip install -qU langchain_ollama

文档加载

我们将使用Lilian Weng的一篇博客文章作为示例文档：

from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import WebBaseLoader

loader = WebBaseLoader("https://lilianweng.github.io/posts/2023-06-23-agent/")
data = loader.load()

text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0)
all_splits = text_splitter.split_documents(data)

初始化向量存储

使用nomic-embed-text模型进行初始化：

from langchain_chroma import Chroma
from langchain_ollama import OllamaEmbeddings

local_embeddings = OllamaEmbeddings(model="nomic-embed-text")

vectorstore = Chroma.from_documents(documents=all_splits, embedding=local_embeddings)

设置并测试模型

使用Ollama的llama3.1:8b模型进行交互：

from langchain_ollama import ChatOllama

model = ChatOllama(model="llama3.1:8b")

response_message = model.invoke("Simulate a rap battle between Stephen Colbert and John Oliver")
print(response_message.content)

代码示例

我们可以将检索到的文档和简单的提示组合成一个摘要链：

from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate

prompt = ChatPromptTemplate.from_template("Summarize the main themes in these retrieved docs: {docs}")

def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

chain = {"docs": format_docs} | prompt | model | StrOutputParser()

docs = vectorstore.similarity_search("What are the approaches to Task Decomposition?")
chain.invoke(docs)