将qwen1.8B量化成gguf（其他模型同理）

格瑞Lxf

已于 2024-01-24 16:55:35 修改

阅读量1k

点赞数 11

文章标签：语言模型

于 2024-01-24 15:09:05 首次发布

本文链接：https://blog.csdn.net/china_boy007/article/details/135822071

版权

环境配置可以参照官方网站GitHub - ggerganov/llama.cpp: Port of Facebook's LLaMA model in C/C++

运行pip install -r requirements.txt，后续缺少什么就直接安装什么，python建议3.10

具体在linux安装步骤为以下顺序

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
mkdir build
cd build
cmake ..
# generate exe files
cmake --build . --config Release
cd ..
# 注意一定要用convert-hf-to-gguf.py才能支持Qwen，其他可能是Python convert.py model（没试过）
python convert-hf-to-gguf.py Path_To_Qwen

#进一步对FP16模型进行4-bit量化，生成量化模型文件
bin/quantize ../Qwen/Qwen-1_8B-Chat/ggml-model-f16.gguf ../Qwen/Qwen-1_8B-Chat/ggml-model-q4_0.gguf q4_0

#Path_To_Qwen = Qwen/Qwen-1_8B-Chat

如果只需要16精度的话就只要几行代码

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
python convert-hf-to-gguf.py Path_To_Qwen

https://github.com/ymcui/Chinese-LLaMA-Alpaca/wiki/llama.cpp%E9%87%8F%E5%8C%96%E9%83%A8%E7%BD%Bhttps://github.com/ymcui/Chinese-LLaMA-Alpaca/wiki/llama.cpp%E9%87%8F%E5%8C%96%E9%83%A8%E7%BD%B2

llama.cpp尝鲜Qwen1.8B - 知乎阿里在12月1日进一步开源了Qwen的系列模型。其中包含最小的型号Qwen1.8B。算是中文领域3B以下最强的大模型之一了。试试llama.cpp量化部署。关于终端的量化部署构架，有llama.cpp、fastllm、Qwen.cpp等都可以选择…https://zhuanlan.zhihu.com/p/670092892

格瑞Lxf

关注

11
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
将qwen1.8B量化成gguf（其他模型同理）

阿里在12月1日进一步开源了Qwen的系列模型。其中包含最小的型号Qwen1.8B。算是中文领域3B以下最强的大模型之一了。试试llama.cpp量化部署。关于终端的量化部署构架，有llama.cpp、fastllm、Qwen.cpp等都可以选择…运行pip install -r requirements.txt，后续缺少什么就直接安装什么，python建议3.10。llama.cpp尝鲜Qwen1.8B - 知乎。具体在linux安装步骤为以下顺序，
复制链接

扫一扫