使用 llama.cpp 实现从 PyTorch 到 GGUF 的格式转换与量化

最新推荐文章于 2025-04-14 15:30:44 发布

学亮编程手记

最新推荐文章于 2025-04-14 15:30:44 发布

阅读量809

点赞数 9

分类专栏： chatgpt 文章标签： llama pytorch 人工智能

本文链接：https://blog.csdn.net/a772304419/article/details/146600111

版权

184 篇文章

订阅专栏

安装 llama.cpp
克隆官方仓库并进入项目目录：

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

编译项目
根据操作系统选择编译方式：

Linux/macOS：

make
# 若支持 CUDA，可添加加速编译选项
make GGML_CUDA=1

Windows：

mkdir build
cd build
cmake ..
cmake --build . --config Release

准备 PyTorch 模型
确保 PyTorch 模型以标准格式保存（如包含 pytorch_model.bin 或 model.safetensors 的完整目录），通常通过 model.save_pretrained() 导出。
执行转换脚本
使用 convert_hf_to_gguf.py 将 PyTorch 模型转换为未量化的 GGUF 格式：
```
python convert_hf_to_gguf.py --input_dir ./path/to/pytorch_model --outfile ./output_model_f16.gguf --outtype f16
```
- --input_dir：PyTorch 模型目录路径。
- --outfile：输出的 GGUF 文件路径。
- --outtype：指定输出精度（如 f16 表示 FP16，f32 表示 FP32）。

量化可显著缩小模型体积，但会损失一定精度。根据需求选择合适的量化类型（如 Q4_K_M 平衡体积与精度）：

./llama-quantize ./output_model_f16.gguf ./output_model_q4.gguf Q4_K_M

常用量化类型：
- Q4_K_M：4位量化，适合通用场景。
- Q8_0：8位量化，精度接近原模型。
- F16：不量化，保留原始 FP16 精度。

加载 GGUF 模型测试
使用 llama-cli 或 llama-server 验证模型是否可正常推理：
```
./llama-cli -m ./output_model_q4.gguf -p "Hello, what is the meaning of life?"
```
部署到推理工具
GGUF 模型可直接用于以下工具：
- Ollama：通过 Modelfile 指定 GGUF 文件路径并部署。
- llama.cpp：直接加载量化后的模型进行推理。