通义Qwen实战(2): vllm框架部署实战

@BangBang

已于 2025-03-30 18:55:22 修改

阅读量228

点赞数

分类专栏： LLM 文章标签： LLM VLM vllm 大模型部署

于 2025-03-27 21:41:25 首次发布

本文链接：https://blog.csdn.net/weixin_38346042/article/details/146420151

版权

LLM 专栏收录该内容

17 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

文章目录

1. 环境安装

1.1 基础环境

conda create -n vllm python=3.10 -y
conda install pytorch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 pytorch-cuda

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

@BangBang

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

大模型微调部署实战及类GPT工具的高效使用

herosunly的博客

07-24

19万+

本文主要介绍了专栏《大模型微调部署实战及类GPT工具的高效使用》的核心内容，希望对使用大语言模型的同学们有所帮助。文章目录 1. 前言 2. 专栏亮点 3. 你的收获 4. 详细目录

Qwen3开源发布：Think Deeper, Act Faster！推理、部署、微调、MCP调用实战教程

最新发布

zhangjiaofa的专栏

04-29

181

今天，通义千问Qwen团队正式开源推出 Qwen3，这是 Qwen 系列大型语言模型的最新成员。最新的Qwen3系列模型具备双模推理能力（深入思考/快速响应）、支持119种语言及方言，并强化了Agent功能与代码执行能力，全面满足复杂问题处理与全球化应用需求。其中，旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中，与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比，表现出极具竞争力的结果。

参与评论您还未登录，请先登录后发表或查看评论

vLLM推理部署Qwen2.5

小森的博客

10-28

6196

借助vLLM，构建一个与OpenAI API兼容的API服务十分简便，该服务可以作为实现OpenAI API协议的服务器进行部署。适用于大批量Prompt输入，并对推理速度要求高的场景，吞吐量比HuggingFace Transformers高10多倍。它旨在提供高性能、低延迟的推理服务，并支持多种硬件加速器，如 GPU 和 CPU。现在的Ubuntu是最简单配置的，如果使用wget等命令，需要使用apt-get下载再使用。这是一款流行的文本生成Web界面工具，拥有多个交互界面，并支持多种模型后端。

vllm多卡部署qwen2.5-72b-instruct

xuebodx0923的博客

02-23

1288

1. 介绍1.1 vllmvLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架，旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。vLLM是一个快速且易于使用的库，用于 LLM 推理和服务，可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法「PagedAttention」，有效地管理注意力键和值。vLLM的特点和优势：采用了 PagedAttention，可以有效管理 attention 的 keys、values。vllm多卡部署qwen2.5-72b-instru

vllm部署QwQ32B(Q4_K_M)

hbkybkzw的博客

03-17

2121

Ollama是一个轻量级的开源LLM推理框架，注重简单易用和本地部署，而VLLM是一个专注于高效推理的开源大型语言模型推理引擎，适合开发者在实际应用中集成和使用。两者的主要区别在于Ollama更注重为用户提供多种模型选择和易用性，而VLLM更注重模型推理性能的优化。所以VLLM更适合企业级的高并发需求。vllm的github地址QwQ32B硬件要求Q4_K_M量化，大概需要22G左右够用，一张3090或者4090即可，魔改2080ti 的 22G 显存差不多够用。

纯离线部署本地知识库LLM大模型

fenfenfen520a的博客

02-26

106

纯离线部署本地知识库LLM大模型 一、下载离线大模型 下载的网址：https://hf-mirror.com/ deepseek qwen 相关的模型，只建议使用1.5B的，GGUF后缀的模型推荐下载llama相关模型，同样是GGUF后缀的，自己笔记本电脑推荐下载8B的二、下载大模型管理平台 L

Vllm进行Qwen2-vl部署（包含单卡多卡部署及爬虫请求）

热门推荐

sherlockMa的博客

11-01

1万+

使用vLLM部署Qwen2-VL，包含单卡部署、多卡部署、爬虫requests发送请求

使用 vllm 本地部署 cohere 的 command-r

engchina的专栏

04-24

1148

使用 vllm 本地部署 cohere 的 command-r

vLLM 部署 Qwen

AI工程化、开源分享、文档翻译、代码笔记

01-31

4431

你可以通过 huggingface 的方法调用 Qwen，使用 vllm 部署时，没有便捷的 chat 方法，作者在这里封装了方法，方便调用。伊织 2024-01-31（三）vllm_wrapper 实现。

vllm部署qwen1.5

weixin_53215849的博客

04-18

2267

此镜像需要自己安装vllm，也可拉取官方镜像，但只可开启类openai api服务。部署openai风格的 api服务。

LLM部署，并发控制，流式响应（Python，Qwen2+FastAPI）

悠逸的博客

07-14

9048

本文实现了工程实践下并发控制下LLM服务器部署并提供流式响应。使得LLM服务器可以同时处理多个请求，并实现“当请求达到一定数量后，直接拒绝后续的推理请求”功能，防止服务器过载以及排队时间过长影响用户体验（直接告知服务器繁忙）。此外，对于较为复杂的问题（推理复杂、文本过长）生成回答，在并发架构下实现了“边推理便输出内容”的“流式响应”，可有效提高用户体验，优化人机交互实现。使用Python+Qwen2+FastAPI

Qwen2.5 PyTorch模型微调入门实战

2401_87243659的博客

09-27

1791

在之前的华为全联接大会2024上，了解到openMind应用使能套件在AI生态社区中发挥的技术能力。此次Qwen模型的微调经验，也让人看到了openMind在AI模型调优和推理能力。openMind是AI开发者的强有力的助手，它让微调过程变得更加高效和直观。希望每一位开发者都来尝试它，一起交流经验，更好地提升它的能力。openMind，一款应用使能开发套件，为各大模型社区提供支持，提供海量模型/数据托管能力、在线推理体验服务，同时具备模型训练、微调、评估、推理等全流程开发能力。

最强开源大模型炸场！全网独一份AI大模型学习实践资源...（待会删）

Y525698136的博客

08-07

1410

最强开源大模型炸场！全网独一份AI大模型学习实践资源...（待会删）

使用vllm容器化部署Qwen1.8b模型OpenAi兼容的api

xuptyjs的博客

10-28

567

这里注意：--served-model-name参数不可取消，否则会导致后面请求不成功，同时，为减小模型推理所占用的显存资源，使用量化后的模型进行推理。注意这里应该直接在requirement.txt中加上vllm框架，使镜像直接包含vllm。如有响应正常返回，则表示成功！

通过vLLM部署LLM模型到生产环境中

Michael的博客

02-07

1628

./output/qwen2_5-1_5b-instruct/v0-202xxxxx-xxxxxx/checkpoint-xxx-merged”：替换为真实的微调模型路径。该服务提供的HTTP接口兼容OpenAI API，可以通过调用HTTP接口，如/v1/chat/completions，让你快速体验大模型的推理能力。然后，在终端窗口执行wrk压测命令，分别设置chat接口的并发量(-c)为1和10，压测时间(-d)均为10s，观察两个实验的压测结果。请注意，关闭终端窗口将会立即终止服务。

【人工智能】使用vLLM高性能部署Qwen大语言模型

linjiuxiansheng的博客

04-21

1034

PagedAttention技术,显著提升推理性能兼容OpenAI API接口支持张量并行等分布式推理动态批处理优化吞吐量支持多种主流大语言模型本文详细介绍了使用vLLM部署Qwen大模型的完整流程。通过合理配置,可以充分发挥硬件性能,实现高效的模型服务。建议读者根据实际硬件条件和性能需求,调整相关参数以获得最佳效果。

vLLM部署Qwen2.5-Omni 提供API的详细步骤

AngelCryToo的专栏

04-11

1102

的吞吐量（batch_size=32时）。如需进一步优化吞吐或延迟，可根据实际负载调整批处理参数。按照此方案部署后，Qwen2.5-Omni在A100上可实现。量化方式（awq/gptq）

vllm离线docker部署

03-20

<think>好的，用户想了解如何进行vLLM的离线Docker部署。我需要先理解vLLM是什么。vLLM是一个高效的大模型推理和服务库，适用于生产环境。离线部署通常涉及在没有互联网连接的环境中安装和运行Docker容器。首先，用户需要准备Docker环境。根据引用[2]中的信息，离线安装Docker可以通过脚本完成，需要确保所有服务器都安装了Docker并配置了镜像仓库。接下来是构建或获取vLLM的Docker镜像。如果在离线环境中，用户可能需要先在有网络的环境下构建镜像，然后导出并传输到离线服务器。例如，使用docker save和docker load命令，如引用[1]中的docker push和镜像仓库的配置。然后，用户需要处理依赖项。vLLM依赖如PyTorch等库，离线情况下需要预先下载这些依赖的whl文件，并在Dockerfile中复制进去。可以参考引用[3]中提到的离线部署方法，可能涉及到下载特定版本的组件并手动安装。接下来是编写Dockerfile。需要基于合适的基础镜像，比如CUDA镜像，然后复制vLLM的代码和依赖，安装必要的包。Dockerfile中要确保所有安装步骤都能离线完成，避免apt-get或pip尝试在线下载。构建镜像后，需要部署到离线服务器。使用docker load导入镜像，然后运行容器。运行时要挂载模型目录，可能需要调整网络设置，如引用[4]中的IP配置，确保容器能访问所需的模型文件和其他资源。最后，测试服务是否正常运行，比如发送推理请求验证。同时，用户可能需要配置持久化存储和监控，确保服务稳定。用户提供的引用中提到了kubevirt和k8s的部署，但vLLM的Docker部署可能不需要这些，除非涉及更复杂的编排。需要专注于Docker本身的步骤，保持简单明了。需要检查是否所有步骤都考虑到了离线环境的限制，比如依赖的离线安装、镜像的传输方法，以及如何在没有网络的情况下处理可能的缺失组件。确保提供的命令正确，例如docker build、docker save/load的使用，以及Dockerfile中的路径正确。可能还需要提示用户注意Docker镜像与宿主机的兼容性，尤其是GPU驱动和CUDA版本，如果vLLM需要GPU加速的话。引用[3]中提到了kubevirt和virtctl，这可能与虚拟化有关，但vLLM的部署可能更直接依赖于Docker和硬件资源。总结步骤：准备Docker环境、获取或构建vLLM镜像、处理依赖、编写Dockerfile、构建镜像、部署到离线服务器、运行并测试。需要分步骤解释，并给出示例命令，如Dockerfile内容、构建和运行命令，以及如何处理依赖项。</think>### vLLM离线Docker部署指南 #### 1. **准备Docker环境** - 在离线服务器上安装Docker引擎，需提前下载离线安装包（如`.deb`或`.rpm`文件）并通过脚本部署[^2]。 - 配置私有Docker镜像仓库（如Harbor），用于存储vLLM相关镜像[^1]。 #### 2. **获取vLLM镜像** - **在线环境构建镜像**（若可联网）： ```dockerfile FROM nvidia/cuda:12.1.0-base-ubuntu22.04 RUN apt-get update && apt-get install -y python3-pip COPY requirements.txt . RUN pip install --no-cache-dir -r requirements.txt COPY vllm /app/vllm WORKDIR /app ``` 使用`docker build -t vllm-offline:latest .`构建镜像。 - **离线传输镜像**： ```bash docker save vllm-offline:latest > vllm-offline.tar # 将tar文件复制到离线服务器后加载 docker load < vllm-offline.tar ``` #### 3. **处理依赖项** - 离线安装`torch`等依赖： - 从PyPI官网手动下载`.whl`文件（如`torch-2.1.0+cu121-cp310-cp310-linux_x86_64.whl`）。 - 在Dockerfile中添加： ```dockerfile COPY torch-2.1.0+cu121-cp310-cp310-linux_x86_64.whl /tmp/ RUN pip install /tmp/torch-2.1.0+cu121-cp310-cp310-linux_x86_64.whl ``` #### 4. **部署与运行** - 启动容器（挂载模型目录）： ```bash docker run -itd --gpus all \ -v /path/to/models:/models \ -p 8000:8000 \ vllm-offline:latest \ python3 -m vllm.entrypoints.api_server --model /models/llama-2-7b ``` - 验证服务： ```bash curl http://localhost:8000/generate -d '{"prompt": "Hello world"}' ``` #### 5. **配置持久化与网络** - 使用`docker volume create`创建持久化存储卷。 - 若需跨节点通信，参考[^4]配置静态IP确保容器网络可达。