1.简介(摘自modelscope/通义千问1.5-0.5B-Chat-GGUF)
Qwen1.5 是 Qwen2 的测试版,Qwen2 是一种基于 Transformer 的纯解码器语言模型,在大量数据上进行了预训练。与之前发布的 Qwen 相比,改进包括:
- 6 种型号尺寸,包括 0.5B、1.8B、4B、7B、14B 和 72B;
- 人类对聊天模型的偏好显著提高;
- 对基本模型和聊天模型的多语言支持;
- 稳定支持 32K 上下文长度,适用于各种尺寸的模型
- 不需要
trust_remote_code
.
注意:本教程基于Ubuntu系统,其他系统请遵循语法使用。
2.部署通义千问1.5-0.5B-Chat-GGUF流程
2.1下载模型代码
下载代码地址:魔搭社区
附上代码:
from modelscope.hub.file_download import model_file_download
model_dir = model_file_download(model_id='qwen/Qwen1.5-0.5B-Chat-GGUF',file_path='qwen1_5-0_5b-chat-q5_k_m.gguf',revision='master',cache_dir='path/to/local/dir')
用jupyter notebook运行代码,或者在命令行中使用python download_model.py 来运行代码。
2.2下载llama.cpp
使⽤git命令克隆llama.cpp项⽬
git clone https://github.com/ggerganov/llama.cpp
克隆完成之后我们进入llama.cpp目录中,对项目进行编译
cd llama.cpp
make -j
2.3加载模型并运行
./main -m /mnt/workspace/home/llm/qwen/Qwen1.5-0.5B-Chat-GGUF/qwen1_5-0_5b-chatq5_k_m.gguf -n 512 --color -i -cml
提醒:此处需要注意将模型的地址换为你自己的文件地址,否则将无法找到模型。
等待片刻后,模型成功加载,如果需要退出,请按Ctrl+C。
接下来我们对部署的模型进行对话测试:
上图为已部署的通义千问1.5-0.5B-Chat-GGUF模型对话测试
3.部署Qwen2.openvino流程
1.环境配置
首先到github去下载安装需要的文件,附github链接
GitHub - OpenVINO-dev-contest/Qwen2.openvino: This sample shows how to deploy Qwen2 using OpenVINO
下载
-
requirements.txt
-
chat.py
-
convert.py
python -m venv qwenVenv
source qwenVenv/bin/activate
当我们的命令行语句前出现:(qwenVenv)时,代表已经创建好。
最后安装依赖的包,此时requirements.txt文件被使用。
pip install wheel setuptools
pip install -r requirements.txt
这时,基本的环境已经配置完成。
2.模型下载
配置镜像服务器来加快下载速度
export HF_ENDPOINT=https://hf-mirror.com
下载模型
huggingface-cli download --resume-download --local-dir-use-symlinks False Qwen/Qwen1.5-0.5B-Chat --
local-dir {your_path}/Qwen1.5-0.5B-Chat
此时,Qwen1.5-0.5B-Chat已经被部署好。
3.转换模型
python3 convert.py --model_id Qwen/Qwen1.5-0.5B-Chat --precision int4 --output {your_path}/Qwen1.5-
0.5B-Chat-ov
4.加载模型
python3 chat.py --model_path {your_path}/Qwen1.5-0.5B-Chat-ov --max_sequence_length 4096 --device CPU
5.对话测试
4.结语
本教程是基于大连理工大学软件学院教授 胡燕所编写的实验教程所编写,如有错误,恳请指出。