在本地构建RAG应用：从零开始的指南

最新推荐文章于 2025-03-10 02:07:10 发布

aehrutktrjk

最新推荐文章于 2025-03-10 02:07:10 发布

阅读量554

点赞数 4

文章标签： python 开发语言

本文链接：https://blog.csdn.net/aehrutktrjk/article/details/142533885

版权

引言

随着项目如llama.cpp、Ollama和llamafile的流行，本地运行大型语言模型（LLM）变得越来越重要。本指南将演示如何使用Ollama在本地运行LLaMA 3.1，并利用本地嵌入和语言模型进行检索增强生成（RAG）。

主要内容

设置

首先，我们需要设置Ollama。具体步骤可以参考其GitHub仓库。

安装Ollama

下载并运行桌面应用：确保应用程序正常运行。
从命令行获取模型：您需要以下模型：
- 通用模型如llama3.1:8b，使用ollama pull llama3.1:8b命令。
- 文本嵌入模型如nomic-embed-text，使用ollama pull nomic-embed-text命令。

所有模型将在localhost:11434上自动提供服务。请根据您的硬件能力选择模型。

安装必要的包

# 文档加载、检索方法和文本拆分
%pip install -qU langchain langchain_community

# Chroma本地向量存储
%pip install -qU langchain_chroma

# Ollama本地推理和嵌入
%pip install -qU langchain_ollama

文档加载

加载并拆分示例文档，以Lilian Weng的博客文章为例。

from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import WebBaseLoader

loader = WebBaseLoader("https://lilianweng.github.io/posts/2023-06-23-agent/")
data = loader.load()

text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0)
all_splits = text_splitter.split_documents(data)

初始化向量存储

我们将使用nomic-embed-text来初始化向量存储。

from langchain_chroma import Chroma
from langchain_ollama import OllamaEmbeddings

local_embeddings = OllamaEmbeddings(model="nomic-embed-text")

vectorstore = Chroma.from_documents(documents=all_splits, embedding=local_embeddings)

设置模型

使用Ollama和llama3.1:8b模型进行设置。

from langchain_ollama import ChatOllama

model = ChatOllama(
    model="llama3.1:8b",
)

使用链式调用简化任务

创建一个摘要链，将检索到的文档和简单提示结合。

from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate

prompt = ChatPromptTemplate.from_template(
    "Summarize the main themes in these retrieved docs: {docs}"
)

def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

chain = {"docs": format_docs} | prompt | model | StrOutputParser()

question = "What are the approaches to Task Decomposition?"

docs = vectorstore.similarity_search(question)

chain.invoke(docs)