如何使用 Ollama 量化与部署自己的模型/怎么将Hugging Face或其他格式转成GGUF文件/快速实现 Hugging Face 模型 GGUF 量化并部署到 Ollama

最新推荐文章于 2025-04-14 10:44:10 发布

TokamakYang

最新推荐文章于 2025-04-14 10:44:10 发布

阅读量1.2k

点赞数 14

文章标签：深度学习人工智能自然语言处理语言模型

本文链接：https://blog.csdn.net/m0_61565919/article/details/145631489

版权

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

安装 Python 依赖（如需要）：

pip install -r requirements.txt

或者自行安装所需依赖（如 torch、transformers 等）。

llama.cpp 提供几个转换脚本，可根据使用场景选择：

示例（将 Hugging Face 模型转换为 GGUF）：

python convert_hf_to_gguf.py --model /path/to/hf/model -o /path/to/output/gguf-model

完成后，可以在 /path/to/output/ 目录找到生成的 .gguf 文件。

在 convert_hf_to_gguf.py 中，可通过 --target 参数指定量化方式，一般可选：

也可根据需要设定其他参数，如 --outfile 重新命名输出、--batch-size 优化转换速度等。示例：

python convert_hf_to_gguf.py \
  --model /path/to/hf/model \
  --outfile /path/to/output/model.gguf \
  --target q4_0 \
  --batch-size 1024

完成后即可得到指定量化方式的 .gguf 文件

创建一个名为 Modelfile 的文件，内容类似：
```
FROM ./your-model.gguf
```
通过以下命令将 .gguf 模型文件导入到 Ollama，这里example是你模型的名字
```
ollama create example -f Modelfile
```
部署并运行模型：
```
ollama run example
```

以上就是从 Hugging Face 格式到 GGUF，并在 Ollama 中部署的基本流程。可根据实际需求对量化类型（Q4_0、Q4_1、Q8_0 等）或脚本参数进行修改，以获得更合适的模型体积与性能表现。