使用vLLM部署Qwen2.5-VL-7B-Instruct模型的详细指南

engchina

已于 2025-02-09 09:18:17 修改

阅读量1.6w

点赞数 48

分类专栏： LINUX 文章标签： vllm qwen2.5-vl 7B 本地部署

于 2025-02-05 14:55:19 首次发布

本文链接：https://blog.csdn.net/engchina/article/details/145455322

版权

LINUX 专栏收录该内容

902 篇文章

订阅专栏

使用vLLM部署Qwen2.5-VL-7B-Instruct模型的详细指南

引言

近年来，随着大规模语言模型（LLM）的快速发展，如何高效地进行模型推理成为了一个热门话题。vLLM作为一个专为加速LLM推理而设计的库，受到了广泛关注。本文将详细介绍如何使用vLLM来部署Qwen2.5-VL-7B-Instruct模型。

环境搭建

首先，我们需要搭建一个合适的环境。通过以下命令创建一个新的conda环境并激活它：

conda create -n vllm_qwen2_5_vl python=3.12 -y
conda activate vllm_qwen2_5_vl

安装vLLM

接下来，我们需要安装vLLM。由于目前vLLM的官方仓库尚未合并对Qwen2.5-VL-7B-Instruct的支持，我们需要从特定的分支（qwen2_5_vl）进行安装。

注意：现在vLLM的官方仓库合并了相关支持，直接使用pip install vllm即可。

pip install vllm

git clone https://github.com/ywang96/vllm@qwen2_5_vl vllm_qwen
cd vllm_qwen/
git checkout qwen2_5_vl

在安装vLLM时，我们可以使用预编译的二进制文件来加速安装过程：

VLLM_USE_PRECOMPILED=1 pip install -e .

安装依赖库

为了确保vLLM能够正常运行，我们需要安装一些必要的依赖库。

同样，如果未来vLLM的官方仓库合并了相关支持，直接使用pip install vllm即可。

pip install "git+https://github.com/huggingface/transformers"
pip install flash-attn --no-build-isolation

此外，我们还需要安装Hugging Face Hub的工具，以便从Hub上下载模型：

pip install "huggingface_hub[hf_transfer]"

下载模型

接下来，我们从Hugging Face Hub下载Qwen2.5-VL-7B-Instruct模型：

HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download Qwen/Qwen2.5-VL-7B-Instruct

启动vLLM服务器

最后，我们使用vLLM将模型作为服务器启动。运行以下命令：

VLLM_USE_V1=1 \
VLLM_WORKER_MULTIPROC_METHOD=spawn \
vllm serve Qwen/Qwen2.5-VL-7B-Instruct --trust-remote-code --served-model-name gpt-4 --gpu-memory-utilization 0.98 --tensor-parallel-size 4 --port 8000

在这个命令中，我们使用了以下选项：

--trust-remote-code: 允许执行远程代码。
--served-model-name gpt-4: 将服务器提供的模型名称设置为gpt-4。
--gpu-memory-utilization 0.98: 设置GPU内存利用率为98%。
--tensor-parallel-size 4: 设置张量并行处理的大小为4。
--port 8000: 在端口8000上启动服务器。

总结

通过以上步骤，我们成功使用vLLM部署了Qwen2.5-VL-7B-Instruct模型。vLLM能够显著加速大规模语言模型的推理过程，推荐大家尝试使用。

参考

vLLM GitHub仓库