在这篇技术文章中,我们将探讨如何使用 llama-cpp-python
(llama.cpp
的 Python 绑定)在本地运行大语言模型(LLMs)。你将学到如何安装依赖、加载模型、调整参数以获得最佳性能,以及如何结合 LangChain 处理推理任务。
一、技术背景介绍
llama-cpp-python
是 llama.cpp
的 Python 绑定,旨在简化本地运行大语言模型的过程。它支持多种 LLM 模型,包括可以从 Hugging Face 获取的模型。
新版本提示
最新版本的 llama-cpp-python
已改用 GGUF 模型文件格式并不再兼容旧版 GGML 文件格式。如果你需要转换模型文件,可使用以下命令:
python ./convert-llama-ggmlv3-to-gguf.py --eps 1e-5 \
--input models/openorca-platypus2-13b.ggmlv3.q4_0.bin \
--output models/openorca-platypus2-13b.gguf.q4_0.bin
二、安装 llama-cpp-python
1. CPU 安装
最简单的安装方式:
pip install --upgrade --quiet llama-cpp-python
2. 使用 OpenBLAS/cuBLAS/CLBlast 加速
要启用更高性能的 BLAS 后端,可设置环境变量 FORCE_CMAKE=1
并使用以下命令:
CMAKE_ARGS="-DLLAMA_CUBLAS=on" FORCE_CMAKE=1 \
pip install llama-cpp-python --upgrade --force-reinstall --no-cache-dir
3. Metal (适用于 Apple Silicon)
Mac 用户可以通过 Metal GPU 获得性能优化:
CMAKE_ARGS=