Llama.Cpp + LangChain:在本地运行大模型(LLM)

llama.cpp 的主要目标是在各种硬件(本地和云端)上以最少的设置和最先进的性能实现 LLM 推理。

https://github.com/ggerganov/llama.cpp

llama-cpp-python 是 llama.cpp 库的简单 Python 绑定。

https://github.com/abetlen/llama-cpp-python

llama-cpp-python 提供了:

  • 通过 ctypes 接口对 C API 进行低级访问。

  • 用于文本完成的高级 Python API

    • 类似 OpenAI 的 API
    • LangChain 兼容性
    • LlamaIndex 兼容性
  • OpenAI 兼容的 Web 服务器

    • 本地 Copilot 替换
    • 函数调用支持
    • Vision API 支持
    • 多种模型

功能很强大,我们在本文只需要学习如何在本地使用 llama-cpp-python 构建一个类似 OpenAI 的 API,并在 LangChain 框架中使用这个 API 提供的 LLM。

首先我们去 HuggingFace 上下载一个中文版的 8B Llama3.1 量化模型,下载链接:

https://huggingface.co/shenzhi-wang/Llama3.1-8B-Chinese-Chat/blob/main/gguf/llama3.1_8b_chinese_chat_q8_0.gguf

img

https://huggingface.co/shenzhi-wang/Llama3.1-8B-Chinese-Chat

什么是量化?请看此前的文章:想要学习大语言模型中的量化吗?

下载完毕之后,打开终端,运行:

python -m llama_cpp.server --model C:\Home\Documents\Projects\models\Llama\llama3.1_8b_chinese_chat_q8_0.gguf

看到这个输出就表示成功了:

img

访问:http://localhost:8000/docs 就可以访问 API 的接口文档了。

img

/v1/models GET 方法会返回当前可用的模型 ID:

img

现在我们就可以使用 OpenAI 的本地平替了:

img

如上图所示,模型能够将英文翻译成中文。注意,我仅指定了模型服务的 base_url,而不用指定 api_key。

理论上,LangChain 官方关于使用 OpenAI 的操作都能使用 Llama.Cpp + 合适的开源模型来替代。

如果你不想单独启动一个 llama.cpp 服务的话,你也可以直接在 LangChain 中使用本地 LLM。

为了开始并使用下面显示的所有功能,我们建议使用已针对工具调用进行微调的模型。我这里使用的是 NousResearch/Hermes-3-Llama-3.1-8B。

首先我们需要初始化模型对象:

img

然后我们就可以调用模型:

img

翻译正确。

我们也可以将模型和提示模板链接起来:

img

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

<think>好的,我现在需要帮用户介绍如何在本地使用Local AIllama.cpp和DeepSeek部署RAG的详细流程。首先,我需要确认自己对各个组件的理解是否正确。RAG是检索增强生成,结合了检索外部知识和生成模型的能力,对吧?Local AI可能是指本地运行AI框架,llama.cpp是C++实现的LLM推理引擎,DeepSeek可能是一个特定的模型或者数据集?可能需要进一步确认。 用户的需求是详细的部署流程,所以需要分步骤说明。首先,可能需要环境准备,比如安装依赖、下载模型等。然后,RAG通常包括文档处理、向量数据库、检索和生成几个部分。我需要考虑如何整合这些组件。 首先,安装llama.cpp,需要从GitHub克隆仓库,编译,可能需要安装依赖如CMake、Python等。然后下载DeepSeek的模型,可能是Hugging Face格式,需要转换成gguf格式以便llama.cpp使用。转换步骤可能需要使用llama.cpp的python脚本。 接下来,处理用户文档,使用嵌入模型生成向量,建立向量数据库。这里可能需要用到Local AI提供的嵌入模型,或者Hugging Face的某个模型。然后,将查询时检索相关文档,输入到DeepSeek模型中生成答案。 需要详细说明每个步骤的具体操作,比如转换模型的命令、处理文档的代码示例、如何启动llama.cpp的API服务,以及如何集成检索和生成部分。可能还需要提到使用FAISS或Chroma作为向量数据库,以及如何将检索到的上下文传递给生成模型。 需要注意的是,用户可能对某些步骤不熟悉,比如模型转换、向量数据库的构建,所以需要给出具体的命令和代码示例。同时,要确保所有步骤在本地运行,不需要外部API,符合Local AI的要求。另外,DeepSeek模型的具体名称和下载位置可能需要确认,是否有现成的gguf版本,或者是否需要自己转换。 可能遇到的坑:模型转换时的参数设置,向量数据库的匹配问题,以及如何有效将检索结果整合到生成模型的输入中。需要提示用户可能需要的调整,比如上下文长度限制,或者检索top_k的设置。 总结下来,步骤大概是:环境准备→模型下载与转换→文档处理与向量数据库构建→RAG流程集成→测试与优化。每个步骤需要详细命令和代码,确保用户能一步步操作。</think>以下是在本地使用 **Local AI + llama.cpp + DeepSeek** 部署 RAG(Retrieval-Augmented Generation)的详细流程: --- ### **1. 环境准备** #### **1.1 安装依赖** ```bash # 基础依赖 sudo apt-get update && sudo apt-get install -y build-essential cmake python3-pip # Python 依赖 pip install numpy pandas sentence-transformers faiss-cpu langchain flask ``` #### **1.2 克隆 llama.cpp 仓库** ```bash git clone https://github.com/ggerganov/llama.cpp cd llama.cpp && make ``` --- ### **2. 模型准备** #### **2.1 下载 DeepSeek 模型** - 从 Hugging Face 下载模型(如 `deepseek-ai/deepseek-llm-7b-chat`): ```bash git lfs install git clone https://huggingface.co/deepseek-ai/deepseek-llm-7b-chat ``` #### **2.2 转换模型为 GGUF 格式** ```bash # 安装转换依赖 pip install -r llama.cpp/requirements.txt # 转换 HF 模型到 GGUF python3 llama.cpp/convert-hf-to-gguf.py deepseek-llm-7b-chat --outfile deepseek-7b-chat.gguf # 量化(可选,减少内存占用) ./llama.cpp/quantize deepseek-7b-chat.gguf deepseek-7b-chat-Q4_K_M.gguf Q4_K_M ``` --- ### **3. 构建向量数据库** #### **3.1 准备本地文档** 将文本文件(如 PDF、TXT)存放在 `documents/` 目录下。 #### **3.2 生成文档向量** ```python from sentence_transformers import SentenceTransformer from langchain.vectorstores import FAISS # 加载嵌入模型(本地运行) embed_model = SentenceTransformer("paraphrase-multilingual-MiniLM-L12-v2") # 读取文档并分块 documents = [...] # 从本地文件读取文本并分块 # 生成向量 doc_embeddings = embed_model.encode([doc.text for doc in documents]) # 构建向量数据库 vector_db = FAISS.from_embeddings(doc_embeddings, documents) vector_db.save_local("faiss_index") ``` --- ### **4. 部署 RAG 流程** #### **4.1 启动 llama.cpp 服务** ```bash ./llama.cpp/server -m deepseek-7b-chat-Q4_K_M.gguf --ctx-size 2048 --port 8000 ``` #### **4.2 实现 RAG 逻辑** ```python from flask import Flask, request, jsonify from sentence_transformers import SentenceTransformer from langchain.vectorstores import FAISS app = Flask(__name__) embed_model = SentenceTransformer("paraphrase-multilingual-MiniLM-L12-v2") vector_db = FAISS.load_local("faiss_index", embed_model) @app.route("/ask", methods=["POST"]) def ask(): # 检索 query = request.json["query"] query_embed = embed_model.encode([query]) docs = vector_db.similarity_search_by_vector(query_embed[0], k=3) # 构造提示词 context = "\n".join([doc.text for doc in docs]) prompt = f"基于以下上下文回答问题:\n{context}\n\n问题:{query}\n回答:" # 调用本地模型生成 response = requests.post( "http://localhost:8000/completion", json={"prompt": prompt, "temperature": 0.7, "max_tokens": 512} ) return jsonify({"answer": response.json()["content"]}) if __name__ == "__main__": app.run(port=5000) ``` --- ### **5. 测试与优化** #### **5.1 发送查询请求** ```bash curl -X POST http://localhost:5000/ask -H "Content-Type: application/json" -d '{"query": "如何解释量子计算?"}' ``` #### **5.2 优化方向** - **性能优化**:调整 `k`(检索文档数量)和 `max_tokens`(生成长度)。 - **模型优化**:尝试不同量化版本的 DeepSeek 模型(如 Q5_K_M)。 - **检索优化**:使用更精确的嵌入模型(如 `bge-large-zh-v1.5`)。 --- ### **关键点说明** 1. **本地运行**:所有组件(模型、向量数据库、服务)均在本地运行,无需网络。 2. **硬件要求**: - 7B 模型需至少 8GB 内存(量化后)。 - GPU 加速需编译 llama.cpp 时启用 CUDA。 3. **扩展性**:可替换为其他开源模型(如 Qwen、ChatGLM3)。 通过以上步骤,你可以在本地低成本实现一个基于私有数据的智能问答系统。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值