如何使用vLLM部署通义千问大模型Qwen?使用docker的Python基础镜像部署大模型

最新推荐文章于 2025-05-03 16:10:02 发布

沈在安

最新推荐文章于 2025-05-03 16:10:02 发布

阅读量1.9k

点赞数 8

文章标签： docker 容器运维语言模型

本文链接：https://blog.csdn.net/Asigerg/article/details/143600764

版权

1. 准备环境

在开始之前，请确保您已经安装了Docker（不适用docker可以不安装）和CUDA，以及python和pip供下载模型文件。

2. 下载模型

由于网络问题，需要使用huggingface-cli来下载模型。首先安装所需的库。

pip install -U huggingface_hub hf_transfer -i  https://mirrors.aliyun.com/pypi/simple

设置变量，

export HF_ENDPOINT=https://hf-mirror.com

下载模型，该过程需要较长时间。

huggingface-cli download --resume-download Qwen/Qwen2.5-32B-Instruct-GPTQ-Int4 --local-dir /home/rkty/qwen

参数说明：--resume-download 若出现问题中断下载可以在第二次执行时继续下载
Qwen/Qwen2.5-32B-Instruct-GPTQ-Int4表示你要下载的模型名
--local-dir 表示你要把模型下载到的路径

3. 下载vLLM

vLLM要求python版本在3.9-3.1

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

沈在安

关注关注

8
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Ollama本地私有化部署通义千问大模型Qwen2.5

09-26

5075

Qwen是阿里巴巴集团Qwen团队的大型语言模型和大型多模态模型系列。现在大型语言模型已经升级到Qwen2.5。语言模型和多模态模型都是在大规模多语言和多模态数据上进行预训练的，并在符合人类偏好的高质量数据上进行后训练。Qwen具有自然语言理解、文本生成、视觉理解、音频理解、工具使用、角色扮演、人工智能代理等功能。在Qwen2发布的过去三个月里，许多开发人员在Qwen2语言模型上构建了新的模型，向我们提供了宝贵的反馈。在此期间，我们专注于创建更智能、知识更丰富的语言模型。

LLM大模型推理加速 vLLM；docker推理大模型；Qwen vLLM使用案例；模型生成速度吞吐量计算

weixin_42357472的博客

09-04

4274

参考：https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html ##文档加速原理：PagedAttention，主要是利用kv缓存。

1 条评论您还未登录，请先登录后发表或查看评论

【大模型实战篇】vllm本地部署阿里最新的QwQ-32B推理模型以及体验

源泉的小广场

03-06

6853

推理模型、千问推理模型、大模型、32B推理模型、强化学习、deepseek-r1、QwQ-32B

vllm多卡部署开源模型（一）

周的技术博客

01-03

2053

背景：最近准备私有化一个语言模型，在问题理解，意图分析，数据组合等业务上，进行更好的理解，记录一下过程。【未完待续，吃饭中。4. embedding模型。5. rerank模型。

阿里多模态大模型Qwen2.5-VL-32B ，本地部署实践

2201_75499313的博客

03-29

1729

Qwen2.5-VL-32B 介绍，我就不帮忙吹嘘了，阿里没有给我广告费通过视觉理解：Qwen2.5-VL 不仅擅长识别常见的花朵、鸟类、鱼类和昆虫，而且能够高效地分析图像中的文本、图表、图标、图形和布局。具有自主性：Qwen2.5-VL 直接扮演视觉代理的角色，能够进行推理并动态指导工具使用，具备计算机使用和手机使用的能力。理解长视频并捕捉事件：Qwen2.5-VL 能够理解时长超过 1 小时的视频，并且这次它新增了捕捉事件的能力，能够定位相关的视频片段。

VLLM部署通义千问

oqzuser12345678999q的博客

06-20

1435

vllm 版本 4.0.0镜像 vllm github 官方镜像openai api 方式出现的问题通过 chat-template 聊天模板解决。

Qwen等大模型使用 vLLM部署详解

酌沧

06-11

1万+

vLLM 预分配并管理推理过程中使用的缓存空间，如 past_key_values。通过预分配缓存，可以减少推理过程中因动态内存分配带来的开销。

vllm部署qwen1.5

weixin_53215849的博客

04-18

2268

此镜像需要自己安装vllm，也可拉取官方镜像，但只可开启类openai api服务。部署openai风格的 api服务。

docker+vllm 快速上手以部署Qwen2.5通义千问为例

最新发布

qq_60245590的博客

05-03

368

精度（适配您的 V100 GPU）。：指定服务端口（默认为。

DockerFile指令集

weixin_30379911的博客

12-30

142

FROM 语法：FROM <image>[:<tag>] 解释：设置要制作的镜像基于哪个镜像，FROM指令必须是整个Dockerfile的第一个指令，如果指定的镜像不存在默认会自动从Docker Hub上下载。 MAINTAINER 语法：MAINTAINER <name> ...

vllm+qwen2部署！

Q794469的博客

07-11

3181

检查ninjaecho $?

vLLM推理部署Qwen2.5

小森的博客

10-28

6201

借助vLLM，构建一个与OpenAI API兼容的API服务十分简便，该服务可以作为实现OpenAI API协议的服务器进行部署。适用于大批量Prompt输入，并对推理速度要求高的场景，吞吐量比HuggingFace Transformers高10多倍。它旨在提供高性能、低延迟的推理服务，并支持多种硬件加速器，如 GPU 和 CPU。现在的Ubuntu是最简单配置的，如果使用wget等命令，需要使用apt-get下载再使用。这是一款流行的文本生成Web界面工具，拥有多个交互界面，并支持多种模型后端。

如何在AMD GPU上部署Hugging Face模型？

03-20

<think>好的，我现在需要回答用户关于在AMD GPU上部署Hugging Face模型的方法。首先，我得理清用户的具体需求。用户提到了引用资料1到4，这些引用主要涉及vLLM、TGI部署、Hugging Face Accelerate以及OCI的Kubernetes引擎。我需要确保回答覆盖这些方面，并且步骤清晰。第一步，我应该确认AMD GPU的环境准备。根据引用[1]和[2]，ROCm是必需的，所以需要指导用户安装ROCm驱动和PyTorch的ROCm版本。同时，可能还需要检查硬件兼容性，比如支持的GPU型号，例如MI系列或Radeon系列。接下来，用户可能需要使用不同的工具进行部署，比如TGI（Text Generation Inference）。引用[3]提到了如何在AMD GPU上使用TGI部署LLM，所以需要详细说明安装步骤，包括Docker的使用和启动命令。这里要确保命令正确，比如指定正确的镜像和参数。然后，Hugging Face Accelerate也是一个重点，引用[4]提到了在OKE上使用AMD GPU进行Stable Diffusion XL的部署。这部分需要解释如何配置Accelerate的多GPU支持，以及可能涉及的YAML文件调整，适用于Kubernetes环境。另外，vLLM也是一个高效的推理库，引用[1]和[2]指出其在AMD GPU上的优化。需要说明如何安装vLLM并加载模型，可能还需要示例代码来展示推理过程。还需要考虑优化策略，比如量化、动态批处理等，这部分引用[2]有提到，可以强调这些方法如何提升性能。此外，监控和维护也是部署后的重要步骤，需要简要提及日志和资源监控工具。最后，生成相关问题时要覆盖教程、优化、对比不同工具以及微调等方面，确保用户能进一步探索相关主题。在整理这些步骤时，要确保每个部分都引用正确的来源，比如TGI部署引用[3]，vLLM引用[1][2]，Kubernetes部分引用[4]。同时，保持语言简洁，结构清晰，分点说明，方便用户逐步操作。需要避免技术术语过多，但又要准确，比如正确使用ROCm版本号，确保命令的可执行性。可能遇到的挑战是不同工具的兼容性，比如TGI对AMD GPU的支持是否有限制，或者ROCm版本与PyTorch的对应关系。因此，在教程中需要明确版本要求，或引导用户查阅官方文档以获取最新信息。总结来说，回答需要涵盖环境准备、多种部署工具的使用（TGI、vLLM、Accelerate）、优化策略和监控维护，每个步骤附带具体命令和引用，最后生成相关问题帮助用户深入。需要多次检查命令的正确性和引用对应关系，避免错误。</think>以下是在AMD GPU上部署Hugging Face模型的详细方法和教程，整合了ROCm生态系统的最佳实践： ### 一、环境准备 1. **安装ROCm驱动** 需安装与GPU型号匹配的ROCm版本（如5.7），支持MI系列和Radeon Pro系列显卡[^1][^2]： ```bash sudo apt install rocm-hip-sdk ``` 2. **配置PyTorch环境** 安装支持ROCm的PyTorch版本： ```bash pip3 install torch torchvision --index-url https://download.pytorch.org/whl/rocm5.7 ``` 3. **验证硬件识别** 运行`rocm-smi`命令确认GPU识别状态。 --- ### 二、使用Text Generation Inference (TGI) 部署 1. **拉取TGI Docker镜像** 使用AMD优化的镜像： ```bash docker pull ghcr.io/huggingface/text-generation-inference:1.1.0+rocm ``` 2. **启动模型服务** 以Llama 2为例的部署命令： ```bash docker run -p 8080:80 --device=/dev/kfd --device=/dev/dri \ -v $PWD/data:/data \ ghcr.io/huggingface/text-generation-inference:1.1.0+rocm \ --model-id meta-llama/Llama-2-7b-chat-hf \ --quantize bitsandbytes-nf4 \ --max-input-length 4096 ``` 支持`--sharded true`参数实现多GPU并行[^3]。 --- ### 三、通过Hugging Face Accelerate部署 1. **配置多GPU加速** 使用accelerate配置文件： ```python from accelerate import init_empty_weights, load_checkpoint_and_dispatch model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-2-7b") model = load_checkpoint_and_dispatch(model, "checkpoints/", device_map="auto") ``` 2. **Kubernetes集群部署** 参考OCI Kubernetes Engine (OKE)配置模板[^4]： ```yaml resources: limits: amd.com/gpu: 4 requests: amd.com/gpu: 4 ``` --- ### 四、vLLM推理优化方案 1. **安装vLLM** ```bash pip install vllm>=0.3.0 ``` 2. **编写推理代码** ```python from vllm import LLM, SamplingParams llm = LLM(model="meta-llama/Llama-2-7b", tensor_parallel_size=4) print(llm.generate(["AI的未来发展方向是"])) ``` 支持动态批处理和持续批处理优化[^2]。 --- ### 五、性能优化策略 1. **量化压缩** 使用8-bit/4-bit量化： ```python model = AutoModelForCausalLM.from_pretrained(..., load_in_4bit=True) ``` 2. **内核优化** 启用FlashAttention和定制MIOpen内核： ```bash export HIP_ENABLE_FP32_ALLOW_CONVERSION=1 ``` --- ### 六、监控与维护 1. 使用`rocprof`进行性能分析 2. 配置Prometheus监控GPU显存使用 3. 日志集成到ELK Stack