1. 准备环境
在开始之前,请确保您已经安装了Docker(不适用docker可以不安装)和CUDA,以及python和pip供下载模型文件。
2. 下载模型
由于网络问题,需要使用huggingface-cli来下载模型。首先安装所需的库。
pip install -U huggingface_hub hf_transfer -i https://mirrors.aliyun.com/pypi/simple
设置变量,
export HF_ENDPOINT=https://hf-mirror.com
下载模型,该过程需要较长时间。
huggingface-cli download --resume-download Qwen/Qwen2.5-32B-Instruct-GPTQ-Int4 --local-dir /home/rkty/qwen
参数说明:--resume-download 若出现问题中断下载可以在第二次执行时继续下载
Qwen/Qwen2.5-32B-Instruct-GPTQ-Int4表示你要下载的模型名
--local-dir 表示你要把模型下载到的路径
3. 下载vLLM
vLLM要求python版本在3.9-3.1