引言
近年来,随着大规模语言模型(LLM)的快速发展,如何高效地进行模型推理成为了一个热门话题。vLLM作为一个专为加速LLM推理而设计的库,受到了广泛关注。本文将详细介绍如何使用vLLM来部署Qwen2.5-VL-7B-Instruct模型。
环境搭建
首先,我们需要搭建一个合适的环境。通过以下命令创建一个新的conda环境并激活它:
conda create -n vllm_qwen2_5_vl python=3.12 -y
conda activate vllm_qwen2_5_vl
安装vLLM
接下来,我们需要安装vLLM。由于目前vLLM的官方仓库尚未合并对Qwen2.5-VL-7B-Instruct的支持,我们需要从特定的分支(qwen2_5_vl
)进行安装。
注意:现在vLLM的官方仓库合并了相关支持,直接使用
pip install vllm
即可。
pip install vllm
or
git clone https://github.com/ywang96/vllm@qwen2_5_vl vllm_qwen
cd vllm_qwen/
git checkout qwen2_5_vl
在安装vLLM时,我们可以使用预编译的二进制文件来加速安装过程:
VLLM_USE_PRECOMPILED=1 pip install -e .
安装依赖库
为了确保vLLM能够正常运行,我们需要安装一些必要的依赖库。
同样,如果未来vLLM的官方仓库合并了相关支持,直接使用
pip install vllm
即可。
pip install "git+https://github.com/huggingface/transformers"
pip install flash-attn --no-build-isolation
此外,我们还需要安装Hugging Face Hub的工具,以便从Hub上下载模型:
pip install "huggingface_hub[hf_transfer]"
下载模型
接下来,我们从Hugging Face Hub下载Qwen2.5-VL-7B-Instruct模型:
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download Qwen/Qwen2.5-VL-7B-Instruct
启动vLLM服务器
最后,我们使用vLLM将模型作为服务器启动。运行以下命令:
VLLM_USE_V1=1 \
VLLM_WORKER_MULTIPROC_METHOD=spawn \
vllm serve Qwen/Qwen2.5-VL-7B-Instruct --trust-remote-code --served-model-name gpt-4 --gpu-memory-utilization 0.98 --tensor-parallel-size 4 --port 8000
在这个命令中,我们使用了以下选项:
--trust-remote-code
: 允许执行远程代码。--served-model-name gpt-4
: 将服务器提供的模型名称设置为gpt-4
。--gpu-memory-utilization 0.98
: 设置GPU内存利用率为98%。--tensor-parallel-size 4
: 设置张量并行处理的大小为4。--port 8000
: 在端口8000上启动服务器。
总结
通过以上步骤,我们成功使用vLLM部署了Qwen2.5-VL-7B-Instruct模型。vLLM能够显著加速大规模语言模型的推理过程,推荐大家尝试使用。