【AI】openEuler 8卡 4090 Docker部署QwQ-32B模型指令_8卡4090服务器如何部署-CSDN博客

本文链接：https://blog.csdn.net/hknaruto/article/details/146400455

模型地址

模型文件

]# ll -h
total 62G
-r-------- 1 root    root     707 Mar 18 18:44 added_tokens.json
-r-------- 1 root    root     662 Mar 18 18:44 config.json
-r-------- 1 root    root      48 Mar 18 18:44 configuration.json
dr-x------ 2 root    root    4.0K Mar 18 18:44 figures
-r-------- 1 root    root     243 Mar 18 18:44 generation_config.json
-r-------- 1 root    root     12K Mar 18 18:44 LICENSE
-r-------- 1 root    root    1.6M Mar 18 18:44 merges.txt
-r-------- 1 root    root    4.6G Mar 18 19:58 model-00001-of-00014.safetensors
-r-------- 1 root    root    4.6G Mar 18 20:47 model-00002-of-00014.safetensors
-r-------- 1 root    root    4.6G Mar 18 20:12 model-00003-of-00014.safetensors
-r-------- 1 root    root    4.6G Mar 18 20:15 model-00004-of-00014.safetensors
-r-------- 1 root    root    4.6G Mar 18 19:15 model-00005-of-00014.safetensors
-r-------- 1 root    root    4.6G Mar 18 19:19 model-00006-of-00014.safetensors
-r-------- 1 root    root    4.6G Mar 18 20:46 model-00007-of-00014.safetensors
-r-------- 1 root    root    4.6G Mar 18 20:05 model-00008-of-00014.safetensors
-r-------- 1 root    root    4.6G Mar 18 19:46 model-00009-of-00014.safetensors
-r-------- 1 root    root    4.6G Mar 18 19:57 model-00010-of-00014.safetensors
-rw-r--r-- 1 yeqiang yeqiang 4.6G Mar  5 23:37 model-00011-of-00014.safetensors
-r-------- 1 root    root    4.6G Mar 18 20:01 model-00012-of-00014.safetensors
-r-------- 1 root    root    4.6G Mar 18 19:39 model-00013-of-00014.safetensors
-r-------- 1 root    root    2.0G Mar 18 20:46 model-00014-of-00014.safetensors
-r-------- 1 root    root     62K Mar 18 18:44 model.safetensors.index.json
-r-------- 1 root    root    7.1K Mar 18 18:44 README.md
-r-------- 1 root    root     613 Mar 18 18:44 special_tokens_map.json
-r-------- 1 root    root    8.1K Mar 18 18:44 tokenizer_config.json
-r-------- 1 root    root    6.8M Mar 18 20:01 tokenizer.json
-r-------- 1 root    root    2.7M Mar 18 18:44 vocab.json

部署指令

docker run --restart=always -d --name QwQ-32B --gpus all --shm-size=50gb --ipc=host -v /media/models/QwQ-32B:/models -p 8001:8000 -e VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 vllm/vllm-openai:v0.7.3 --model=/models --tensor-parallel-size=8 --swap-space=4 --served-model-name=QwQ-32B --gpu-memory-utilization=0.95 --max-model-len=81920 --enable-chunked-prefill --max-num-batched-tokens=16384 --dtype=bfloat16 --enforce-eager

指令解释

vLLM应用参数

--model=/models
- 作用：指定容器内模型文件的路径（对应挂载的宿主机目录）。
- 效果：加载 /models 下的模型文件进行推理。
--tensor-parallel-size=8
- 作用：设置张量并行度为8，将模型拆分到8块GPU上。
- 效果：支持超大模型推理（如32B参数模型需多卡并行）。
--swap-space=4
- 作用：预留4GB的CPU内存/磁盘空间作为GPU内存交换区。
- 效果：缓解GPU内存不足问题（单位可能是GB，需确认文档）。
--served-model-name=QwQ-32B
- 作用：定义服务中模型的名称。
- 效果：API请求时可通过此名称指定模型（多模型部署时重要）。
--gpu-memory-utilization=0.95
- 作用：设置GPU内存利用率目标为95%。
- 效果：尽可能高效利用GPU内存，避免浪费。
--max-model-len=81920
- 作用：设置模型支持的最大上下文长度为81,920 tokens。
- 效果：处理超长文本输入（需模型本身支持）。
--enable-chunked-prefill
- 作用：启用分块预填充（将长序列拆分为块处理）。
- 效果：减少内存峰值压力，提升长序列处理稳定性。
--max-num-batched-tokens=16384
- 作用：设置每个批次的最大token数为16,384。
- 效果：平衡吞吐量与延迟，避免单批次过大导致内存溢出。
--dtype=bfloat16
- 作用：使用bfloat16数据类型加载模型。
- 效果：节省GPU内存，同时保持数值稳定性（适合推理）。
--enforce-eager
- 作用：强制禁用计算图优化，使用“即时执行”（eager）模式。
- 效果：避免PyTorch动态图优化导致的问题，方便调试。

GPU状态

+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 570.86.10 Driver Version: 570.86.10 CUDA Version: 12.8 |
|-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA GeForce RTX 4090 Off | 00000000:0C:00.0 Off | Off |
| 30% 34C P8 18W / 450W | 23391MiB / 24564MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 1 NVIDIA GeForce RTX 4090 Off | 00000000:25:00.0 Off | Off |
| 30% 35C P8 28W / 450W | 23699MiB / 24564MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 2 NVIDIA GeForce RTX 4090 Off | 00000000:32:00.0 Off | Off |
| 30% 35C P8 6W / 450W | 23699MiB / 24564MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 3 NVIDIA GeForce RTX 4090 Off | 00000000:45:00.0 Off | Off |
| 30% 35C P8 23W / 450W | 23699MiB / 24564MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 4 NVIDIA GeForce RTX 4090 Off | 00000000:58:00.0 Off | Off |
| 30% 35C P8 25W / 450W | 23699MiB / 24564MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 5 NVIDIA GeForce RTX 4090 Off | 00000000:84:00.0 Off | Off |
| 30% 36C P8 20W / 450W | 23699MiB / 24564MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 6 NVIDIA GeForce RTX 4090 Off | 00000000:98:00.0 Off | Off |
| 30% 34C P8 20W / 450W | 23699MiB / 24564MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 7 NVIDIA GeForce RTX 4090 Off | 00000000:AC:00.0 Off | Off |
| 30% 36C P8 28W / 450W | 23699MiB / 24564MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 8 NVIDIA GeForce RTX 4090 Off | 00000000:C0:00.0 Off | Off |
| 30% 35C P8 22W / 450W | 1MiB / 24564MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 9 NVIDIA GeForce RTX 4090 Off | 00000000:D4:00.0 Off | Off |
| 30% 34C P8 23W / 450W | 1MiB / 24564MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| 0 N/A N/A 4023521 C /usr/bin/python3 23374MiB |
| 1 N/A N/A 4024273 C /usr/bin/python3 23682MiB |
| 2 N/A N/A 4024274 C /usr/bin/python3 23682MiB |
| 3 N/A N/A 4024275 C /usr/bin/python3 23682MiB |
| 4 N/A N/A 4024276 C /usr/bin/python3 23682MiB |
| 5 N/A N/A 4024277 C /usr/bin/python3 23682MiB |
| 6 N/A N/A 4024278 C /usr/bin/python3 23682MiB |
| 7 N/A N/A 4024279 C /usr/bin/python3 23682MiB |
+-----------------------------------------------------------------------------------------+