【学习笔记】:Ubuntu 22 使用模型量化工具llama.cpp部署大模型 CPU+GPU

本文介绍了如何在Ubuntu22环境中使用llama.cpp工具部署大模型,包括从GitHub仓库下载并编译,支持CPU和GPU运行,以及量化模型以减小大小和提高性能。还详细讲解了如何在CPU和GPU上加载模型以及利用llama-cpp-pythonAPI进行文本生成任务,包括GPU加速设置和安装方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


前言

官方仓库:
  llama.cpp
  llama-cpp-python
环境:
  CUDA Version: 12.2
  Torch: 2.1.1
  Python: 3.9


1 下载并编译llama.cpp

1.1 git下载llama.cpp仓库源码

由于服务器git上不去,先下载源码到本地再上传到服务器(带有.git隐藏文件)。

git clone https://github.com/ggerganov/llama.cpp

1.2 编译源码(make)

生成./main和./quantize等二进制文件。

cd llama.cpp

1.2.1 选择一:仅在CPU上运行

make

1.2.2 选择二:使用GPU,与cuBLAS编译

使用 Nvidia GPU 的 CUDA 内核提供 BLAS 加速,确保设备上有GPU+CUDA。

make LLAMA_CUBLAS=1 LLAMA_CUDA_NVCC=/usr/local/cuda/bin/nvcc

如果遇到错误:
在这里插入图片描述
可尝试

make clean
cd scripts
sed -i 's/\r//' build-info.sh
make LLAMA_CUBLAS=1 LLAMA_CUDA_NVCC=/usr/local/cuda/bin/nvcc

2 量化大模型

2.1 准备大模型

llama.cpp支持转换的模型格式有PyTorch 的.pth、huggingface的 .safetensors、还有之前 llamma.cpp 采用的 ggmlv3。
在 huggingface 上找到合适格式的模型,下载至 llama.cpp 的 models目录下。
或本地已下载的模型上传至models目录。

2.2 生成量化模型

quantize 提供各种精度的量化。量化会损失精度.(参考WIKI最后部分

LLAMA(Language Model Applications in Alignment and Modeling Agreements)框架下,如果你想要使用`llama.cpp`文件来启动一个模型并指定使用GPU 2 和 GPU 3,通常这个过程会涉及到深度学习库(如PyTorch或TensorFlow)的配置。具体步骤可能会因库的不同而有所差异,但一般包括以下几个步骤: 1. **环境设置**:确保你的系统已经安装了支持GPU计算的版本,比如CUDA和相应的深度学习库(例如PyTorch 1.x 或 TensorFlow 2.x)。 2. **选择适当库**:如果是在PyTorch中,可以创建一个运行脚本,通过`torch.cuda.set_device()`函数来指定设备。例如: ```python import torch torch.cuda.set_device(2) model = YourModelClass() # 你的模型类,假设它有一个cuda属性或支持GPU训练 model.to('cuda') ``` 对于TensorFlow,你可以使用`tf.config.set_visible_devices()`来指定显卡: ```python import tensorflow as tf gpus = tf.config.experimental.list_physical_devices('GPU') if gpus: try: tf.config.experimental.set_visible_devices(gpus[2:], 'GPU') # 使用索引从0开始 logical_gpus = tf.config.experimental.list_logical_devices('GPU') print(len(gpus), "Physical GPUs,", len(logical_gpus), "Logical GPUs") except RuntimeError as e: # Visible devices must be set before GPUs have been initialized print(e) model = YourModelClass() # 你的模型实例,需要支持TPU或GPU训练 strategy = tf.distribute.MirroredStrategy(devices=['/device:GPU:2']) # 或其他设备地址 with strategy.scope(): model.compile(...) ``` 3. **模型配置**:在`llama.cpp`文件中,你需要将上述Python代码转换成相应语言的API调用,这取决于你使用的编程接口和库的API文档。 4. **运行脚本**:最后,在`llama.cpp`中,通过调用包含GPU设置的程序或者在适当的地方引入配置,然后执行模型加载和训练。 请注意,实际操作中,你需要查看具体的LLAMA示例代码以及你所使用工具的官方文档,因为代码细节可能因库的具体实现而有所不同。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值