【学习笔记】：Ubuntu 22 使用模型量化工具llama.cpp部署大模型 CPU+GPU

淮序_

已于 2024-03-18 15:45:15 修改

阅读量6.0k

点赞数 13

文章标签：笔记 ubuntu llama python

于 2024-03-13 20:04:23 首次发布

本文链接：https://blog.csdn.net/qq_44305583/article/details/136687599

版权

本文介绍了如何在Ubuntu22环境中使用llama.cpp工具部署大模型，包括从GitHub仓库下载并编译，支持CPU和GPU运行，以及量化模型以减小大小和提高性能。还详细讲解了如何在CPU和GPU上加载模型以及利用llama-cpp-pythonAPI进行文本生成任务，包括GPU加速设置和安装方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

学习笔记：Ubuntu 22 使用模型量化工具llama.cpp部署大模型 CPU+GPU

前言
1 下载并编译llama.cpp
2 量化大模型
- 2.1 准备大模型
- 2.2 生成量化模型
3 加载模型
- 3.1 CPU
- 3.2 GPU
4 llama-cpp-python
- 4.1 安装llama-cpp-python
- 4.2 API
参考

前言

官方仓库：
llama.cpp
llama-cpp-python
环境：
CUDA Version: 12.2
Torch: 2.1.1
Python: 3.9

1 下载并编译llama.cpp

1.1 git下载llama.cpp仓库源码

由于服务器git上不去，先下载源码到本地再上传到服务器（带有.git隐藏文件）。

git clone https://github.com/ggerganov/llama.cpp

1.2 编译源码（make）

生成./main和./quantize等二进制文件。

cd llama.cpp

1.2.1 选择一：仅在CPU上运行

make

1.2.2 选择二：使用GPU，与cuBLAS编译

使用 Nvidia GPU 的 CUDA 内核提供 BLAS 加速，确保设备上有GPU+CUDA。

make LLAMA_CUBLAS=1 LLAMA_CUDA_NVCC=/usr/local/cuda/bin/nvcc

如果遇到错误：
在这里插入图片描述
可尝试

make clean
cd scripts
sed -i 's/\r//' build-info.sh
make LLAMA_CUBLAS=1 LLAMA_CUDA_NVCC=/usr/local/cuda/bin/nvcc

2 量化大模型

2.1 准备大模型

llama.cpp支持转换的模型格式有PyTorch 的.pth、huggingface的 .safetensors、还有之前 llamma.cpp 采用的 ggmlv3。
在 huggingface 上找到合适格式的模型，下载至 llama.cpp 的 models目录下。
或本地已下载的模型上传至models目录。