一 大模型使用llama.cpp转换gguf格式并量化
经llama-factory微调后的模型, 导出后可以直接在xinference上导入使用,但总感觉速度慢,然后想在ollama上使用则需要转成gguf格式。且经本人测试,导入的大模型在ollma上运行,速度确实会比在xinference上快。本次记录方便日后使用,及帮助需要帮助的人。
llama.cpp Github仓库:GitHub - ggerganov/llama.cpp: LLM inference in C/C++
下载llama.cpp
root目录,执行下载命令(也可以是其他目录)
git clone https://github.com/ggerganov/llama.cpp.git
安装Python环境
由于在llama.cpp项目中需要使用python脚本进行模型转换,已装pyhon可以跳过此步。这里我们用conda环境安装llama需要的依赖库 ,并激活虚拟环境,不会装conda的,可以参照Conda/Miniconda/Anaconda 安装及命令整理_minianaconda-CSDN博客:
#创建虚拟环境
conda create -n llama python=3.10
#进入虚拟环境
conda activate llama
#进入工程目录
cd llama.cpp
#安装环境依赖 (此依赖,看有的博主有装,有的没装,目前没发现有啥影响,不想装的可先不装,有报错之后再考虑装)
pip install -e .
llama.cpp安装依赖包
接下来,你需要安装convert_hf_to_gguf.py
脚本所需的依赖包。
cd llama.cpp
目录下(以下执行llama.cpp操作时都需在此目录下),执行以下命令
pip install -r requirements.