以下是基于搜索结果的 DeepSeek-R1 量化版本通过 vLLM 部署运行的步骤及关键注意事项:
一、部署前提
-
硬件要求:
- GPU:至少需 NVIDIA RTX 4090(24GB 显存)或更高配置(如 A100/H100),具体取决于模型量化版本。例如:
- R1-Zero 671B 满血版:需 16-18 张 H100(80GB)GPU 集群。
- 蒸馏版(如 Qwen-7B):单张 RTX 4090 即可运行。
- 内存与存储:建议 64GB 以上内存,固态硬盘空间根据模型大小调整(如 Qwen-7B 需约 500GB)。
- GPU:至少需 NVIDIA RTX 4090(24GB 显存)或更高配置(如 A100/H100),具体取决于模型量化版本。例如:
-
软件环境:
- 安装支持 FP8/BF16 推理模式的 vLLM(版本 ≥0.4.0)。
- 推荐使用 CUDA 12.1+ 和 Py