如何使用llama.cpp将SafeTensors模型转换为GGUF格式并部署ollama

一  大模型使用llama.cpp转换gguf格式并量化

经llama-factory微调后的模型, 导出后可以直接在xinference上导入使用,但总感觉速度慢,然后想在ollama上使用则需要转成gguf格式。且经本人测试,导入的大模型在ollma上运行,速度确实会比在xinference上快。本次记录方便日后使用,及帮助需要帮助的人。

llama.cpp Github仓库:GitHub - ggerganov/llama.cpp: LLM inference in C/C++

下载llama.cpp

root目录,执行下载命令(也可以是其他目录)

git clone https://github.com/ggerganov/llama.cpp.git

安装Python环境

由于在llama.cpp项目中需要使用python脚本进行模型转换,已装pyhon可以跳过此步。这里我们用conda环境安装llama需要的依赖库 ,并激活虚拟环境,不会装conda的,可以参照Conda/Miniconda/Anaconda 安装及命令整理_minianaconda-CSDN博客

#创建虚拟环境
conda create -n llama python=3.10
 
#进入虚拟环境
conda activate llama
 
#进入工程目录
cd llama.cpp
 
#安装环境依赖 (此依赖,看有的博主有装,有的没装,目前没发现有啥影响,不想装的可先不装,有报错之后再考虑装)
pip install -e .

llama.cpp安装依赖包

接下来,你需要安装convert_hf_to_gguf.py脚本所需的依赖包。

cd  llama.cpp目录下(以下执行llama.cpp操作时都需在此目录下),执行以下命令

pip install -r requirements.
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值