使用 Llama.cpp 和 llama-cpp-python 快速部署本地 LLM 模型

最新推荐文章于 2025-03-30 18:00:14 发布

hgSdaegva

最新推荐文章于 2025-03-30 18:00:14 发布

阅读量1.9k

点赞数 6

文章标签： llama python 开发语言

本文链接：https://blog.csdn.net/hgSdaegva/article/details/145314159

版权

在这篇技术文章中，我们将探讨如何使用 llama-cpp-python （llama.cpp 的 Python 绑定）在本地运行大语言模型（LLMs）。你将学到如何安装依赖、加载模型、调整参数以获得最佳性能，以及如何结合 LangChain 处理推理任务。

一、技术背景介绍

llama-cpp-python 是 llama.cpp 的 Python 绑定，旨在简化本地运行大语言模型的过程。它支持多种 LLM 模型，包括可以从 Hugging Face 获取的模型。

新版本提示

最新版本的 llama-cpp-python 已改用 GGUF 模型文件格式并不再兼容旧版 GGML 文件格式。如果你需要转换模型文件，可使用以下命令：

python ./convert-llama-ggmlv3-to-gguf.py --eps 1e-5 \
--input models/openorca-platypus2-13b.ggmlv3.q4_0.bin \
--output models/openorca-platypus2-13b.gguf.q4_0.bin

二、安装 llama-cpp-python

1. CPU 安装

最简单的安装方式:

pip install --upgrade --quiet llama-cpp-python

2. 使用 OpenBLAS/cuBLAS/CLBlast 加速

要启用更高性能的 BLAS 后端，可设置环境变量 FORCE_CMAKE=1 并使用以下命令：

CMAKE_ARGS="-DLLAMA_CUBLAS=on" FORCE_CMAKE=1 \
pip install llama-cpp-python --upgrade --force-reinstall --no-cache-dir

3. Metal (适用于 Apple Silicon)

Mac 用户可以通过 Metal GPU 获得性能优化：

CMAKE_ARGS=

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

hgSdaegva

关注关注

6
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

CPU 上的分布式 Llama 2 通过 llama.cpp 和 PySpark 使用 Python 对商品硬件进行批量推理的玩具示例。

iCloudEnd的博客

08-03

747

本练习是关于使用Llama 2 （ Meta AI的 LLM（大型语言模型））一次总结许多文档。非结构化、半结构化和结构化文本的可扩展摘要本身可以作为一项功能存在，也可以作为输入下游机器学习模型的数据管道的一部分。具体来说，我们想证明以下同时存在的可行性：在CPU上运行 Llama 2 （即消除 GPU 容量限制）LLM 与Apache Spark（大数据生态系统的关键部分）的顺利集成不使用第三方端点（即，由于气隙基础设施或机密性要求，模型必须在本地运行）

Python 绑定llama.cpp github页面

强化学习曾小健

08-12

564

因此，消息应仅包含聊天消息和/或为模型提供额外上下文的系统消息（例如：日期时间等）。非嵌入模型（例如为文本生成设计的模型）通常只返回标记级嵌入，每个序列中的每个标记一个。注意：如果您使用的是 Apple Silicon (M1) Mac，请确保已安装支持 arm64 架构的 Python 版本。使用特定于您的系统的编译器优化构建的。将来，我希望为常见平台提供预构建的二进制文件和轮子，我很乐意接受这方面的任何有用贡献。话虽如此，还是有一些通过发布版本提供的预先构建的二进制文件以及一些社区提供的轮子。

参与评论您还未登录，请先登录后发表或查看评论

解锁 Llama.cpp 的潜力：使用 llama-cpp-python 进行本地化推理

adfyvatbia的博客

11-10

566

通过和LangChain的结合，开发者可以在本地高效实现LLM推理。这减少了对云端API的依赖，并提高了对模型执行的控制。

llama.cpp如何部署deepseek

2406_89088214的博客

02-20

1993

以下是使用llama.cpp 部署DeepSeek模型的完整指南。

大模型本地部署神器：llama.cpp使用介绍

2401_85390073的博客

03-29

1138

本节主要介绍什么是llama.cpp，以及llama.cpp、llama、ollama的区别。同时说明一下GGUF这种模型文件格式。llama.cpp是一个由Georgi Gerganov开发的高性能C++库，主要目标是在各种硬件上（本地和云端）以最少的设置和最先进的性能实现大型语言模型推理。主要特点：纯C/C++实现，没有任何依赖对Apple Silicon（如M1/M2/M3芯片）提供一流支持 - 通过ARM NEON、Accelerate和Metal框架优化。

llama-cpp-python

AI工程化、开源分享、文档翻译、代码笔记

07-16

3587

一、关于 llama-cpp-python 二、安装安装配置支持的后端 Windows 笔记 MacOS笔记升级和重新安装三、高级API 1、简单示例 2、从 Hugging Face Hub 中提取模型 3、聊天完成 4、JSON和JSON模式 JSON模式 JSON Schema 模式 5、函数调用 6、多模态模型 7、Speculative Decoding 8、Embeddings 9、调整上下文窗口四、OpenAI兼容Web服务器 Web服务器功能五、Docker镜像六、低级API

探索 Llama.cpp 与 Llama-cpp-python：轻松运行大型语言模型

dsndnwfk的博客

11-17

1031

Llama.cpp是一个支持多种LLM模型的C++库，而Llama-cpp-python是其Python绑定。通过Llama-cpp-python，开发者可以轻松在Python环境中运行这些模型，特别是在Hugging Face等平台上可用的模型。Llama-cpp-python提供了一种高效且灵活的方式来运行大型语言模型。LLM概念指南。

AI大模型时代，新手和程序员如何转型入局AI行业？

老皮的博客

07-19

568

在人工智能（AI）的浪潮中，大模型技术正以前所未有的速度发展，并在各个领域展现出其强大的应用潜力。

Llama.cpp与Python的完美结合：快速入门指南

nseejrukjhad的博客

10-17

555

Llama.cpp为本地运行LLM提供了一种高效的方法，结合Python的灵活性，您可以轻松地在项目中实现复杂的文本生成任务。建议进一步阅读LLM概念指南以及如何优化模型性能的相关资源。

AI-windows下使用llama.cpp部署本地Chinese-LLaMA-Alpaca-2模型

mrbone11的博客

04-21

1502

本项目基于Meta发布的可商用大模型Llama-2开发，是中文LLaMA&Alpaca大模型的第二期项目，开源了中文LLaMA-2基座模型和Alpaca-2指令精调大模型。这些模型在原版Llama-2的基础上扩充并优化了中文词表，使用了大规模中文数据进行增量预训练，进一步提升了中文基础语义和指令理解能力，相比一代相关模型获得了显著性能提升项目地址https://github.com/ymcui/Chinese-LLaMA-Alpaca-2。

探索Llama.cpp：掌握llama-cpp-python的使用与安装

dsndnwfk的博客

10-31

908

通过本文的介绍，您应该掌握了Llama.cpp的安装与基本使用方法。希望这些知识可以帮助您在AI项目中获得一个良好的开端。LLM概念指南LangChain使用指南。

一文熟悉新版llama.cpp使用并本地部署LLAMA

最新发布

xrinosvip的博客

03-30

897

python3.12.9编译llama-cpp-python问题

纯新手教程：用llama.cpp本地部署DeepSeek蒸馏模型

DeepDriving

02-18

1549

llama.cpp是一个基于纯C/C++实现的高性能大语言模型推理引擎，专为优化本地及云端部署而设计。其核心目标在于通过底层硬件加速和量化技术，实现在多样化硬件平台上的高效推理，同时保持低资源占用与易用性。最近DeepSeek太火了，就想用llama.cpp在本地部署一下试试效果，当然在个人电脑上部署满血版那是不可能的，选个小点的蒸馏模型玩一玩就好了。

[NLP] 使用Llama.cpp和LangChain在CPU上使用大模型-RAG

摩登都市天空---专栏

11-07

6092

下载llama-cpp, llama-cpp-pythonLangChain是一个提供了一组广泛的集成和数据连接器，允许我们链接和编排不同的模块。可以常见聊天机器人、数据分析和文档问答等应用。sentence-transformer提供了简单的方法来计算句子、文本和图像的嵌入。它能够计算100多种语言的嵌入。我们将在这个项目中使用开源的all-MiniLM-L6-v2模型。Facebook AI相似度搜索(FAISS)是一个为高效相似度搜索和密集向量聚类而设计的库。

深入探索 llama-cpp-python：在 LangChain 中启用本地 LLM 推理

aehrutktrjk的博客

11-29

403

通过本文，我们了解了如何在 LangChain 中使用 llama-cpp-python 部署 LLama 模型，涵盖了从安装到推理的整个过程。建议读者进一步探索获取最新模型，并阅读LangChain 官方文档以学习更多关于模型使用的技巧。

基于llama.cpp本地化部署 deepseek-r1模型没有上传附件功能

02-21

### 解决基于 llama.cpp 本地化部署 DeepSeek-R1 模型时缺少上传附件功能的问题为了使 Windows 7 用户能够成功部署并利用 DeepSeek-R1 模型，教程已经针对该环境进行了特定调整[^1]。然而，在实际应用过程中遇到了缺乏文件上传能力这一挑战。 #### 文件上传机制分析通常情况下，Llama.cpp 并不自带图形界面或直接支持文件上传的功能。这是因为 Llama.cpp 主要专注于提供推理服务而非构建完整的应用程序框架。因此，当需要实现文件上传特性时，则需额外集成其他组件来补充此功能。对于希望增加文件上传特性的用户来说，可以考虑采用以下几种方法： - **通过 Web 接口间接处理** 构建一个简单的 HTTP/HTTPS 服务器作为前端接口，允许用户提交文件到指定位置。Python 的 Flask 或 FastAPI 是两个轻量级的选择，易于配置且能快速搭建起所需的服务端逻辑。 ```python import os from flask import Flask, request, send_from_directory app = Flask(__name__) UPLOAD_FOLDER = './uploads' if not os.path.exists(UPLOAD_FOLDER): os.makedirs(UPLOAD_FOLDER) @app.route('/upload', methods=['POST']) def upload_file(): if 'file' not in request.files: return "No file part", 400 file = request.files['file'] if file.filename == '': return "No selected file", 400 filename = secure_filename(file.filename) filepath = os.path.join(app.config['UPLOAD_FOLDER'], filename) file.save(filepath) # 这里可以根据需求调用 llm 处理函数 process_llm_with_uploaded_file(filepath) return f"File {filename} has been uploaded successfully.", 200 def process_llm_with_uploaded_file(path_to_file): pass # 实现具体的LLM处理流程 if __name__ == "__main__": app.run(debug=True) ``` - **命令行参数传递** 如果应用场景较为简单，也可以简化设计思路——即让用户先手动将待处理的数据放置于预设目录下，再启动 Llama.cpp 应用程序并通过命令行参数告知其输入路径。这种方式虽然不够直观友好，但对于某些场景可能是最简便有效的解决方案之一。 - **第三方库辅助开发** 利用 Python 中诸如 `streamlit` 等可视化工具包创建交互式的 GUI 页面，不仅可以让整个过程更加人性化，同时也更容易满足不同层次用户的操作习惯。Streamlit 提供了便捷的方式用于展示模型预测结果以及接收来自用户的反馈信息。综上所述，尽管原生的 Llama.cpp 不具备内置的文件管理能力，但借助外部技术和开源项目完全可以克服这个障碍，并为用户提供满意的体验。