如何使用llama.cpp将SafeTensors模型转换为GGUF格式并部署ollama

最新推荐文章于 2025-03-28 13:56:42 发布

BingGO35

最新推荐文章于 2025-03-28 13:56:42 发布

阅读量5.8k

点赞数 26

分类专栏：大模型微调文章标签： python chatgpt 语言模型 llama gpt

本文链接：https://blog.csdn.net/weixin_42684822/article/details/143357276

版权

一大模型使用llama.cpp转换gguf格式并量化

经llama-factory微调后的模型，导出后可以直接在xinference上导入使用，但总感觉速度慢，然后想在ollama上使用则需要转成gguf格式。且经本人测试，导入的大模型在ollma上运行，速度确实会比在xinference上快。本次记录方便日后使用，及帮助需要帮助的人。

llama.cpp Github仓库：GitHub - ggerganov/llama.cpp: LLM inference in C/C++

下载llama.cpp

root目录，执行下载命令（也可以是其他目录）

git clone https://github.com/ggerganov/llama.cpp.git

安装Python环境

由于在llama.cpp项目中需要使用python脚本进行模型转换，已装pyhon可以跳过此步。这里我们用conda环境安装llama需要的依赖库，并激活虚拟环境，不会装conda的，可以参照Conda/Miniconda/Anaconda 安装及命令整理_minianaconda-CSDN博客：

#创建虚拟环境
conda create -n llama python=3.10

#进入虚拟环境
conda activate llama

#进入工程目录
cd llama.cpp

#安装环境依赖（此依赖，看有的博主有装，有的没装，目前没发现有啥影响，不想装的可先不装，有报错之后再考虑装）
pip install -e .