环境配置可以参照官方网站GitHub - ggerganov/llama.cpp: Port of Facebook's LLaMA model in C/C++
运行pip install -r requirements.txt,后续缺少什么就直接安装什么,python建议3.10
具体在linux安装步骤为以下顺序
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
mkdir build
cd build
cmake ..
# generate exe files
cmake --build . --config Release
cd ..
# 注意一定要用convert-hf-to-gguf.py才能支持Qwen,其他可能是Python convert.py model(没试过)
python convert-hf-to-gguf.py Path_To_Qwen
#进一步对FP16模型进行4-bit量化,生成量化模型文件
bin/quantize ../Qwen/Qwen-1_8B-Chat/ggml-model-f16.gguf ../Qwen/Qwen-1_8B-Chat/ggml-model-q4_0.gguf q4_0
#Path_To_Qwen = Qwen/Qwen-1_8B-Chat
如果只需要16精度的话就只要几行代码
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
python convert-hf-to-gguf.py Path_To_Qwen