模型地址
模型文件
]# ll -h
total 62G
-r-------- 1 root root 707 Mar 18 18:44 added_tokens.json
-r-------- 1 root root 662 Mar 18 18:44 config.json
-r-------- 1 root root 48 Mar 18 18:44 configuration.json
dr-x------ 2 root root 4.0K Mar 18 18:44 figures
-r-------- 1 root root 243 Mar 18 18:44 generation_config.json
-r-------- 1 root root 12K Mar 18 18:44 LICENSE
-r-------- 1 root root 1.6M Mar 18 18:44 merges.txt
-r-------- 1 root root 4.6G Mar 18 19:58 model-00001-of-00014.safetensors
-r-------- 1 root root 4.6G Mar 18 20:47 model-00002-of-00014.safetensors
-r-------- 1 root root 4.6G Mar 18 20:12 model-00003-of-00014.safetensors
-r-------- 1 root root 4.6G Mar 18 20:15 model-00004-of-00014.safetensors
-r-------- 1 root root 4.6G Mar 18 19:15 model-00005-of-00014.safetensors
-r-------- 1 root root 4.6G Mar 18 19:19 model-00006-of-00014.safetensors
-r-------- 1 root root 4.6G Mar 18 20:46 model-00007-of-00014.safetensors
-r-------- 1 root root 4.6G Mar 18 20:05 model-00008-of-00014.safetensors
-r-------- 1 root root 4.6G Mar 18 19:46 model-00009-of-00014.safetensors
-r-------- 1 root root 4.6G Mar 18 19:57 model-00010-of-00014.safetensors
-rw-r--r-- 1 yeqiang yeqiang 4.6G Mar 5 23:37 model-00011-of-00014.safetensors
-r-------- 1 root root 4.6G Mar 18 20:01 model-00012-of-00014.safetensors
-r-------- 1 root root 4.6G Mar 18 19:39 model-00013-of-00014.safetensors
-r-------- 1 root root 2.0G Mar 18 20:46 model-00014-of-00014.safetensors
-r-------- 1 root root 62K Mar 18 18:44 model.safetensors.index.json
-r-------- 1 root root 7.1K Mar 18 18:44 README.md
-r-------- 1 root root 613 Mar 18 18:44 special_tokens_map.json
-r-------- 1 root root 8.1K Mar 18 18:44 tokenizer_config.json
-r-------- 1 root root 6.8M Mar 18 20:01 tokenizer.json
-r-------- 1 root root 2.7M Mar 18 18:44 vocab.json
部署指令
docker run --restart=always -d --name QwQ-32B --gpus all --shm-size=50gb --ipc=host -v /media/models/QwQ-32B:/models -p 8001:8000 -e VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 vllm/vllm-openai:v0.7.3 --model=/models --tensor-parallel-size=8 --swap-space=4 --served-model-name=QwQ-32B --gpu-memory-utilization=0.95 --max-model-len=81920 --enable-chunked-prefill --max-num-batched-tokens=16384 --dtype=bfloat16 --enforce-eager
指令解释
vLLM应用参数
-
--model=/models
-
作用:指定容器内模型文件的路径(对应挂载的宿主机目录)。
-
效果:加载
/models
下的模型文件进行推理。
-
-
--tensor-parallel-size=8
-
作用:设置张量并行度为8,将模型拆分到8块GPU上。
-
效果:支持超大模型推理(如32B参数模型需多卡并行)。
-
-
--swap-space=4
-
作用:预留4GB的CPU内存/磁盘空间作为GPU内存交换区。
-
效果:缓解GPU内存不足问题(单位可能是GB,需确认文档)。
-
-
--served-model-name=QwQ-32B
-
作用:定义服务中模型的名称。
-
效果:API请求时可通过此名称指定模型(多模型部署时重要)。
-
-
--gpu-memory-utilization=0.95
-
作用:设置GPU内存利用率目标为95%。
-
效果:尽可能高效利用GPU内存,避免浪费。
-
-
--max-model-len=81920
-
作用:设置模型支持的最大上下文长度为81,920 tokens。
-
效果:处理超长文本输入(需模型本身支持)。
-
-
--enable-chunked-prefill
-
作用:启用分块预填充(将长序列拆分为块处理)。
-
效果:减少内存峰值压力,提升长序列处理稳定性。
-
-
--max-num-batched-tokens=16384
-
作用:设置每个批次的最大token数为16,384。
-
效果:平衡吞吐量与延迟,避免单批次过大导致内存溢出。
-
-
--dtype=bfloat16
-
作用:使用bfloat16数据类型加载模型。
-
效果:节省GPU内存,同时保持数值稳定性(适合推理)。
-
-
--enforce-eager
-
作用:强制禁用计算图优化,使用“即时执行”(eager)模式。
-
效果:避免PyTorch动态图优化导致的问题,方便调试。
-
GPU状态
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 570.86.10 Driver Version: 570.86.10 CUDA Version: 12.8 |
|-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA GeForce RTX 4090 Off | 00000000:0C:00.0 Off | Off |
| 30% 34C P8 18W / 450W | 23391MiB / 24564MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 1 NVIDIA GeForce RTX 4090 Off | 00000000:25:00.0 Off | Off |
| 30% 35C P8 28W / 450W | 23699MiB / 24564MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 2 NVIDIA GeForce RTX 4090 Off | 00000000:32:00.0 Off | Off |
| 30% 35C P8 6W / 450W | 23699MiB / 24564MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 3 NVIDIA GeForce RTX 4090 Off | 00000000:45:00.0 Off | Off |
| 30% 35C P8 23W / 450W | 23699MiB / 24564MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 4 NVIDIA GeForce RTX 4090 Off | 00000000:58:00.0 Off | Off |
| 30% 35C P8 25W / 450W | 23699MiB / 24564MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 5 NVIDIA GeForce RTX 4090 Off | 00000000:84:00.0 Off | Off |
| 30% 36C P8 20W / 450W | 23699MiB / 24564MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 6 NVIDIA GeForce RTX 4090 Off | 00000000:98:00.0 Off | Off |
| 30% 34C P8 20W / 450W | 23699MiB / 24564MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 7 NVIDIA GeForce RTX 4090 Off | 00000000:AC:00.0 Off | Off |
| 30% 36C P8 28W / 450W | 23699MiB / 24564MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 8 NVIDIA GeForce RTX 4090 Off | 00000000:C0:00.0 Off | Off |
| 30% 35C P8 22W / 450W | 1MiB / 24564MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 9 NVIDIA GeForce RTX 4090 Off | 00000000:D4:00.0 Off | Off |
| 30% 34C P8 23W / 450W | 1MiB / 24564MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| 0 N/A N/A 4023521 C /usr/bin/python3 23374MiB |
| 1 N/A N/A 4024273 C /usr/bin/python3 23682MiB |
| 2 N/A N/A 4024274 C /usr/bin/python3 23682MiB |
| 3 N/A N/A 4024275 C /usr/bin/python3 23682MiB |
| 4 N/A N/A 4024276 C /usr/bin/python3 23682MiB |
| 5 N/A N/A 4024277 C /usr/bin/python3 23682MiB |
| 6 N/A N/A 4024278 C /usr/bin/python3 23682MiB |
| 7 N/A N/A 4024279 C /usr/bin/python3 23682MiB |
+-----------------------------------------------------------------------------------------+