【AI】openEuler 8卡 4090 Docker部署QwQ-32B模型指令

模型地址

魔搭社区

模型文件

]# ll -h
total 62G
-r-------- 1 root    root     707 Mar 18 18:44 added_tokens.json
-r-------- 1 root    root     662 Mar 18 18:44 config.json
-r-------- 1 root    root      48 Mar 18 18:44 configuration.json
dr-x------ 2 root    root    4.0K Mar 18 18:44 figures
-r-------- 1 root    root     243 Mar 18 18:44 generation_config.json
-r-------- 1 root    root     12K Mar 18 18:44 LICENSE
-r-------- 1 root    root    1.6M Mar 18 18:44 merges.txt
-r-------- 1 root    root    4.6G Mar 18 19:58 model-00001-of-00014.safetensors
-r-------- 1 root    root    4.6G Mar 18 20:47 model-00002-of-00014.safetensors
-r-------- 1 root    root    4.6G Mar 18 20:12 model-00003-of-00014.safetensors
-r-------- 1 root    root    4.6G Mar 18 20:15 model-00004-of-00014.safetensors
-r-------- 1 root    root    4.6G Mar 18 19:15 model-00005-of-00014.safetensors
-r-------- 1 root    root    4.6G Mar 18 19:19 model-00006-of-00014.safetensors
-r-------- 1 root    root    4.6G Mar 18 20:46 model-00007-of-00014.safetensors
-r-------- 1 root    root    4.6G Mar 18 20:05 model-00008-of-00014.safetensors
-r-------- 1 root    root    4.6G Mar 18 19:46 model-00009-of-00014.safetensors
-r-------- 1 root    root    4.6G Mar 18 19:57 model-00010-of-00014.safetensors
-rw-r--r-- 1 yeqiang yeqiang 4.6G Mar  5 23:37 model-00011-of-00014.safetensors
-r-------- 1 root    root    4.6G Mar 18 20:01 model-00012-of-00014.safetensors
-r-------- 1 root    root    4.6G Mar 18 19:39 model-00013-of-00014.safetensors
-r-------- 1 root    root    2.0G Mar 18 20:46 model-00014-of-00014.safetensors
-r-------- 1 root    root     62K Mar 18 18:44 model.safetensors.index.json
-r-------- 1 root    root    7.1K Mar 18 18:44 README.md
-r-------- 1 root    root     613 Mar 18 18:44 special_tokens_map.json
-r-------- 1 root    root    8.1K Mar 18 18:44 tokenizer_config.json
-r-------- 1 root    root    6.8M Mar 18 20:01 tokenizer.json
-r-------- 1 root    root    2.7M Mar 18 18:44 vocab.json

部署指令

docker run --restart=always -d --name QwQ-32B --gpus all --shm-size=50gb --ipc=host -v /media/models/QwQ-32B:/models -p 8001:8000 -e VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 vllm/vllm-openai:v0.7.3 --model=/models --tensor-parallel-size=8 --swap-space=4 --served-model-name=QwQ-32B --gpu-memory-utilization=0.95 --max-model-len=81920 --enable-chunked-prefill --max-num-batched-tokens=16384 --dtype=bfloat16 --enforce-eager

指令解释

vLLM应用参数

  1. --model=/models

    • 作用:指定容器内模型文件的路径(对应挂载的宿主机目录)。

    • 效果:加载 /models 下的模型文件进行推理。

  2. --tensor-parallel-size=8

    • 作用:设置张量并行度为8,将模型拆分到8块GPU上。

    • 效果:支持超大模型推理(如32B参数模型需多卡并行)。

  3. --swap-space=4

    • 作用:预留4GB的CPU内存/磁盘空间作为GPU内存交换区。

    • 效果:缓解GPU内存不足问题(单位可能是GB,需确认文档)。

  4. --served-model-name=QwQ-32B

    • 作用:定义服务中模型的名称。

    • 效果:API请求时可通过此名称指定模型(多模型部署时重要)。

  5. --gpu-memory-utilization=0.95

    • 作用:设置GPU内存利用率目标为95%。

    • 效果:尽可能高效利用GPU内存,避免浪费。

  6. --max-model-len=81920

    • 作用:设置模型支持的最大上下文长度为81,920 tokens。

    • 效果:处理超长文本输入(需模型本身支持)。

  7. --enable-chunked-prefill

    • 作用:启用分块预填充(将长序列拆分为块处理)。

    • 效果:减少内存峰值压力,提升长序列处理稳定性。

  8. --max-num-batched-tokens=16384

    • 作用:设置每个批次的最大token数为16,384。

    • 效果:平衡吞吐量与延迟,避免单批次过大导致内存溢出。

  9. --dtype=bfloat16

    • 作用:使用bfloat16数据类型加载模型。

    • 效果:节省GPU内存,同时保持数值稳定性(适合推理)。

  10. --enforce-eager

    • 作用:强制禁用计算图优化,使用“即时执行”(eager)模式。

    • 效果:避免PyTorch动态图优化导致的问题,方便调试。

GPU状态

+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 570.86.10              Driver Version: 570.86.10      CUDA Version: 12.8     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA GeForce RTX 4090        Off |   00000000:0C:00.0 Off |                  Off |
| 30%   34C    P8             18W /  450W |   23391MiB /  24564MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
|   1  NVIDIA GeForce RTX 4090        Off |   00000000:25:00.0 Off |                  Off |
| 30%   35C    P8             28W /  450W |   23699MiB /  24564MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
|   2  NVIDIA GeForce RTX 4090        Off |   00000000:32:00.0 Off |                  Off |
| 30%   35C    P8              6W /  450W |   23699MiB /  24564MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
|   3  NVIDIA GeForce RTX 4090        Off |   00000000:45:00.0 Off |                  Off |
| 30%   35C    P8             23W /  450W |   23699MiB /  24564MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
|   4  NVIDIA GeForce RTX 4090        Off |   00000000:58:00.0 Off |                  Off |
| 30%   35C    P8             25W /  450W |   23699MiB /  24564MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
|   5  NVIDIA GeForce RTX 4090        Off |   00000000:84:00.0 Off |                  Off |
| 30%   36C    P8             20W /  450W |   23699MiB /  24564MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
|   6  NVIDIA GeForce RTX 4090        Off |   00000000:98:00.0 Off |                  Off |
| 30%   34C    P8             20W /  450W |   23699MiB /  24564MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
|   7  NVIDIA GeForce RTX 4090        Off |   00000000:AC:00.0 Off |                  Off |
| 30%   36C    P8             28W /  450W |   23699MiB /  24564MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
|   8  NVIDIA GeForce RTX 4090        Off |   00000000:C0:00.0 Off |                  Off |
| 30%   35C    P8             22W /  450W |       1MiB /  24564MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
|   9  NVIDIA GeForce RTX 4090        Off |   00000000:D4:00.0 Off |                  Off |
| 30%   34C    P8             23W /  450W |       1MiB /  24564MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|    0   N/A  N/A         4023521      C   /usr/bin/python3                      23374MiB |
|    1   N/A  N/A         4024273      C   /usr/bin/python3                      23682MiB |
|    2   N/A  N/A         4024274      C   /usr/bin/python3                      23682MiB |
|    3   N/A  N/A         4024275      C   /usr/bin/python3                      23682MiB |
|    4   N/A  N/A         4024276      C   /usr/bin/python3                      23682MiB |
|    5   N/A  N/A         4024277      C   /usr/bin/python3                      23682MiB |
|    6   N/A  N/A         4024278      C   /usr/bin/python3                      23682MiB |
|    7   N/A  N/A         4024279      C   /usr/bin/python3                      23682MiB |
+-----------------------------------------------------------------------------------------+
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值