DeepSeek-R1/V3及蒸馏模型推理算力需求

最新推荐文章于 2025-04-23 11:25:00 发布

gs80140

最新推荐文章于 2025-04-23 11:25:00 发布

阅读量4.9k

点赞数 49

分类专栏： AI 文章标签：人工智能

本文链接：https://blog.csdn.net/gs80140/article/details/145487309

版权

175 篇文章

订阅专栏

影响AI推理(inference)场景GPU算力需求的主要因素:模型参数规模、计算精度(BF16/FP8/INT8/INT4)、输入及输出上下文长度、并发用户数、延迟要求(TTFT/TPOT)、推理框架的效率等。

AI Model	参数规模	计算精度	最低存储需求	最低算力需求
DeepSeek-R1	685B	FP8	≥890GB	≥2XE9680(16H20)
DeepSeek-R1	685B	INT4	≥450GB	≥1XE9680(8H20)
DeepSeek-V3	671B	FP8	≥870GB	≥2XE9680(16H20)
DeepSeek-V3	671B	INT4	≥440GB	≥1XE9680(8H20)
DeepSeek-R1-Distill-Llama-70B	70B	BF16	≥180GB	≥4L20 or ≥2H20
DeepSeek-R1-Distill-Qwen-32B	32B	BF16	≥80GB	≥3L20 or ≥1H20
DeepSeek-R1-Distill-Qwen-14B	14B	BF16	≥40GB	≥2*L20
DeepSeek-R1-Distill-Llama-8B	8B	BF16	≥22GB	≥1*L20
DeepSeek-R1-Distill-Qwen-7B	7B	BF16	≥20GB	≥1*L20
DeepSeek-R1-Distill-Qwen-1.5B	1.5B	BF16	≥5GB	≥1*A10

这个表格描述了不同型号的 DeepSeek 系列 AI 模型的参数规模、计算精度、最低存储需求和最低算力需求。

其中“最低算力要求 ≥2XE9680(16H20)” 这一表述中，涉及两个关键部分：服务器型号（PowerEdge XE9680）和GPU配置（H20）。以下是详细解析：

戴尔 PowerEdge XE9680 是专为高性能计算（HPC）和人工智能（AI）任务设计的服务器，其核心特点包括：

GPU 配置：单台 XE9680 最多支持 8 个 NVIDIA H20 SXM5 GPU，通过 NVLink 实现 GPU 间高速互联，双向带宽达 900GB/s415。
CPU 与扩展性：搭载第 5 代英特尔至强处理器（如 Platinum 8468，48 核/96 线程），支持 PCIe Gen 5.0、DDR5 内存及多扩展槽，适合大规模并行计算1114。
散热与能效：采用多矢量散热技术和动态供电管理，优化高负载下的稳定性415。

NVIDIA H20 是针对 AI 训练和推理优化的 GPU，其核心性能参数包括：

算力：
- FP16 峰值算力：148 TFLOPS（半精度浮点计算能力）6。
- FP8 峰值算力：296 TFLOPS（八位浮点，适用于低精度推理）6。
显存与带宽：
- 显存容量：96GB，高于 A800 的 80GB，适合处理大模型和长序列任务6。
- 显存带宽：较 A800 提升近一倍，支持更高吞吐量6。
互联能力：NVLink 速率达 900GB/s（双向），是 PCIe 5.0 的 7 倍以上，显著减少多 GPU 通信延迟36。

“≥2XE9680(16H20)” 表示：

硬件数量：至少需要 2 台 PowerEdge XE9680 服务器，每台配备 8 个 H20 GPU，总计 16 个 H20 GPU。
算力要求：
- 单服务器算力：以 FP16 稠密算力为例，单台 XE9680（8×H20）的算力为 8×148 TFLOPS = 1,184 TFLOPS。
- 总算力下限：两台的合计算力至少为 2,368 TFLOPS（FP16）或更高（若使用 FP8 则为 4,736 TFLOPS）6。
应用场景：
- 大规模 AI 训练（如大语言模型、多模态模型）需多机协同，NVLink 互联可提升通信效率315。
- 长文本推理任务中，H20 的高显存和带宽优势可支持更大批处理（Batch Size）和 KV Cache 缓存优化615。