影响AI推理(inference)场景GPU算力需求的主要因素:模型参数规模、计算精度(BF16/FP8/INT8/INT4)、输入及输出上下文长度、并发用户数、延迟要求(TTFT/TPOT)、推理框架的效率 等。
AI Model | 参数规模 | 计算精度 | 最低存储需求 | 最低算力需求 |
---|---|---|---|---|
DeepSeek-R1 | 685B | FP8 | ≥890GB | ≥2XE9680(16H20) |
DeepSeek-R1 | 685B | INT4 | ≥450GB | ≥1XE9680(8H20) |
DeepSeek-V3 | 671B | FP8 | ≥870GB | ≥2XE9680(16H20) |
DeepSeek-V3 | 671B | INT4 | ≥440GB | ≥1XE9680(8H20) |
DeepSeek-R1-Distill-Llama-70B | 70B | BF16 | ≥180GB | ≥4L20 or ≥2H20 |
DeepSeek-R1-Distill-Qwen-32B | 32B | BF16 | ≥80GB | ≥3L20 or ≥1H20 |
DeepSeek-R1-Distill-Qwen-14B | 14B | BF16 | ≥40GB | ≥2*L20 |
DeepSeek-R1-Distill-Llama-8B | 8B | BF16 | ≥22GB | ≥1*L20 |
DeepSeek-R1-Distill-Qwen-7B | 7B | BF16 | ≥20GB | ≥1*L20 |
DeepSeek-R1-Distill-Qwen-1.5B | 1.5B | BF16 | ≥5GB | ≥1*A10 |
这个表格描述了不同型号的 DeepSeek 系列 AI 模型的参数规模、计算精度、最低存储需求和最低算力需求。
其中“最低算力要求 ≥2XE9680(16H20)” 这一表述中,涉及两个关键部分:服务器型号(PowerEdge XE9680)和GPU配置(H20)。以下是详细解析:
1. PowerEdge XE9680 服务器的配置与定位
戴尔 PowerEdge XE9680 是专为高性能计算(HPC)和人工智能(AI)任务设计的服务器,其核心特点包括:
-
GPU 配置:单台 XE9680 最多支持 8 个 NVIDIA H20 SXM5 GPU,通过 NVLink 实现 GPU 间高速互联,双向带宽达 900GB/s415。
-
CPU 与扩展性:搭载第 5 代英特尔至强处理器(如 Platinum 8468,48 核/96 线程),支持 PCIe Gen 5.0、DDR5 内存及多扩展槽,适合大规模并行计算1114。
-
散热与能效:采用多矢量散热技术和动态供电管理,优化高负载下的稳定性415。
2. H20 GPU 的算力特性
NVIDIA H20 是针对 AI 训练和推理优化的 GPU,其核心性能参数包括:
-
算力:
-
FP16 峰值算力:148 TFLOPS(半精度浮点计算能力)6。
-
FP8 峰值算力:296 TFLOPS(八位浮点,适用于低精度推理)6。
-
-
显存与带宽:
-
显存容量:96GB,高于 A800 的 80GB,适合处理大模型和长序列任务6。
-
显存带宽:较 A800 提升近一倍,支持更高吞吐量6。
-
-
互联能力:NVLink 速率达 900GB/s(双向),是 PCIe 5.0 的 7 倍以上,显著减少多 GPU 通信延迟36。
3. 表达式的具体含义
“≥2XE9680(16H20)” 表示:
-
硬件数量:至少需要 2 台 PowerEdge XE9680 服务器,每台配备 8 个 H20 GPU,总计 16 个 H20 GPU。
-
算力要求:
-
单服务器算力:以 FP16 稠密算力为例,单台 XE9680(8×H20)的算力为 8×148 TFLOPS = 1,184 TFLOPS。
-
总算力下限:两台的合计算力至少为 2,368 TFLOPS(FP16)或更高(若使用 FP8 则为 4,736 TFLOPS)6。
-
-
应用场景:
-
大规模 AI 训练(如大语言模型、多模态模型)需多机协同,NVLink 互联可提升通信效率315。
-
长文本推理任务中,H20 的高显存和带宽优势可支持更大批处理(Batch Size)和 KV Cache 缓存优化615。
-
4. 为何选择此配置?
-
性能需求:针对高复杂度任务(如千亿参数模型训练),需多 GPU 协同以缩短训练时间。
-
内存与带宽:H20 的 96GB 显存和高速 NVLink 可避免内存溢出(OOM)和通信瓶颈615。
-
扩展性:通过多台 XE9680 构建集群,可进一步扩展算力规模411。
总结
“最低算力要求 ≥2XE9680(16H20)” 表示需至少部署两台戴尔 XE9680 服务器(共 16 个 H20 GPU),以满足高性能 AI 计算场景中对算力、显存及通信效率的严苛要求。该配置尤其适合需要处理大规模数据、复杂模型或低延迟推理的场景。