DeepSeek部署需要多少GPU资源？一文搞懂如何计算MoE模型显存占用（附自动计算工具）

最新推荐文章于 2025-04-22 09:44:54 发布

大模型面试

最新推荐文章于 2025-04-22 09:44:54 发布

阅读量3.8k

点赞数 20

文章标签：人工智能算法语言模型 AI大模型 agi 大模型深度学习

本文链接：https://blog.csdn.net/Code1994/article/details/145520498

版权

MoE 模型在推理时显存的具体消耗是如何计算的？

本文将重点介绍以下几个方面：

1、不同模型精度对显存占用的影响
2、DeepSeek 推理的资源消耗构成
3、计算资源的评估方法（MoE与非MoE存在差异）
4、结合典型业务场景的计算示例

希望通过本文，能够帮助大家在部署 DeepSeek 时，合理预估显存消耗，并根据实际业务需求选择合适的硬件配置。文末提供 Excel 表格工具实现自动化显存计算，方便读者使用。

一、推理场景资源评估方法

模型精度对模型显存消耗有直接影响

在介绍显存消耗之前，先简单介绍一下模型精度是什么?

在大模型中，参数通常以不同精度的格式存储，常见的有 FP32、FP16、BF16 和 INT8，它们的主要区别在于参数存储的精度不同。

FP32（单精度浮点数）：每个参数占用 32 位（4 字节）。
FP16、BF16（半精度浮点数）：每个参数占用 16 位（2 字节），但它们的小数点表示方式有所不同。
INT8（8 位整数）：每个参数占用 8 位（1 字节），存储需求最小，但可能会损失部分精度。

不同精度格式的显存占用计算方式如下：

INT8：显存占用 = 1 × 参数量（Byte）
FP16、BF16：显存占用 = 2 × 参数量（Byte）
FP32：显存占用 = 4 × 参数量（Byte）

由于 1GB ≈ 10⁹ 字节，可以用此方法粗估算模型的显存需求。例如，LLaMA 13B（130 亿参数）模型采用 BF16 存储时，显存占用约为 2 × 13B = 26GB，因此至少需要 26GB 的 GPU 显存才能运行。

精度和存储空间需要平衡

参数位数越小，存储需求越少，但因为位数少，能表达的信息丰富度也会少，可能会损失一定的计算精度。例如：

INT8（8 位整数）：可以表示 256（282^828）个不同的数值
FP16（半精度浮点数）：采用 1 位符号位 + 5 位指数位 + 10 位尾数位，可表示约 6.55 × 10⁴个不同的数值
BF16（Brain Floating Point 16）：采用 1 位符号位 + 8 位指数位 + 7 位尾数位，能表示的数值范围更大
FP32（单精度浮点数）：采用 1 位符号位 + 8 位指数位 + 23 位尾数位，提供更高的计算精度，但占用的存储空间也更大

在大模型训练和推理中，FP16 和 BF16 常用于降低显存占用，同时保持较高的计算精度，而 INT8 主要用于极限优化推理效率的量化模型。FP32 精度最高，但存储开销也最大，因此主要用于训练而非推理。

DeepSeek模型推理显存消耗如何计算？

计算 DeepSeek V3 推理所需的显存资源需要考虑多个因素，包括模型参数量、精度、输入数据尺寸、批处理大小以及中间计算结果等，显存消耗计算本身比较复杂，大模型在推理时显存消耗主要由下面四部分组成：模型权重占用、KV Cache（Key-Value 缓存）、激活值（Activation）与中间计算存储、并发。我们来看下各自分别是什么：

1、模型权重占用（Weights）

大模型的参数（权重）存储在显存中，需要占用显存，以便计算时快速访问，注意大模型在推理时需要先将模型参数完整的加载到显存中，少一个字节都不行。
DeepSeek-V3 采用 MoE（混合专家）架构，虽然总参数量高达 671B，但每个 token 仅激活部分专家（ 8 个），激活参数量为 37B，所以实际加载的参数远小于全量模型，只需要计算激活的参数量即可。
消耗显存主要取决于数据类型（FP16、FP8、INT4 等），数据精度越高，占用显存越多。

计算公式：模型参数显存（GB）=激活参数量×精度（字节数）/10^9

举例：如果使用 FP16（2B/参数），一个 37B（370 亿参数）规模的 MoE 模型在推理时大约需要 74GB 显存。如果采用 INT8 量化，显存占用可降至 37GB。

2、KV Cache（Key-Value 缓存）

在 Transformer 模型中，每个输入 token 都会通过线性变换生成三个向量：Query（Q）、Key（K）和 Value（V）。在自回归生成任务中，模型每次生成一个新 token 时，需要考虑之前所有生成的 token。如果不使用 KV Cache，每次生成新 token 时都需要重新计算之前所有 token 的 K 和 V，这会导致计算量大幅增加。【关于Q、K、V如何计算可以看文末过往文章】

在这里插入图片描述

KV Cache 的机制是将之前计算好的 K 和 V 缓存起来，在生成新 token 时直接从缓存中读取，而不是重新计算。这样可以显著减少计算量，总结起来

KV Cache 主要存储历史 token 的注意力信息，用于加速自注意力（Self-Attention）计算，避免重复计算。
Transformer 结构计算注意力时，需要访问所有之前的 token，存储 Key 和 Value 以便后续计算。
消耗显存取决于上下文长度和并发用户数，上下文越长、并发用户越多，KV Cache 需求越大。

但是 MoE 跟传统 Transformer 模型有差异，MoE 层和非 MoE 层对显存占用不一样，DeepSeek 模型输入数据通过一个路由机制被分配到不同的专家（Expert）进行处理每个专家只处理部分输入数据，而不是整个输入序列。这种稀疏激活机制显著减少了计算量和显存占用

激活专家数量：每个输入 token 激活的专家数量。DeepSeek V3模型中每个 token 可能激活 8 个专家
压缩维度：为了进一步减少显存占用，MoE 架构通常会对专家的输出进行压缩。压缩维度是指压缩后的特征向量的维度，DeepSeek V3专家模型输入维度是7168，输出会进行压缩至 512 。可以简单理解为原来需要保存7168份信息，现在只需要512份，显存占用减少了。降维后的信息仍然足够表达核心特征，但显存占用只有原来的14分之一（注意不是整体，只是局部），使得推理更加高效。

所以 MoE 层和非 MoE 层的 kv cache 计算公式不一样

对于非 MoE 层， KV Cache 的计算公式为：

KV Cache=2（表示 Key 和 Value 两个矩阵）×Batch Size×Sequence Length×Hidden Size×精度（字节数） × 层数

对于 MoE 层，KV Cache 的计算公式为：

KV Cache =2×Batch Size×Sequence Length×激活专家数量×压缩维度×精度（字节数）× 层数

3、激活值（Activation）与中间计算存储

激活值存储 Transformer 计算过程中中间结果，用于反向传播（训练时）或前向计算（推理时）。
主要包括 Self-Attention 计算中间变量、前馈网络（FFN）计算结果等。
消耗显存取决于 batch size、隐藏层大小（Hidden Size）和层数。

非 MoE 层的计算方式与传统 Transformer 一致，激活值显存计算公式：激活内存=Batch Size×Sequence Length×Hidden Size×层数×精度（字节数）

该部分的计算逻辑与标准 Transformer 结构相同，所有 token 在该层都会经过计算，因此激活值存储需求较大。

MoE 结构中的专家（Experts）不会全部被激活，每个 token 只会被分配到部分专家进行计算，因此 MoE 层的激活值存储计算方式与传统 Transformer 不同。

MoE 层的激活值计算公式为：

激活值显存=Batch Size×Sequence Length×激活专家数量×压缩维度×层数×精度（字节数）

4、计算并发需求

大模型在推理时通常需要同时服务多个用户

模型权重是静态的，并且可以被多个推理任务共享存储模型权重（Weights）——这是固定的，不随并发数增长。

KV Cache（Key-Value 缓存）——不同的请求会有不同的 KV Cache。

激活值（Activations）——每个请求都有自己的计算状态，因此会随并发数增长。

所以显存占用计算方式：对于 N 并发用户，显存消耗可以近似表示为：

总显存=模型权重+(KV Cache+激活值)×N

二、知识库场景 DeepSeek 推理资源消耗计算

企业知识库主要用于员工查询公司政策、技术文档、产品手册等，帮助快速获取所需信息，提高工作效率。例如：

人力资源部门查询公司考勤制度、休假规定；
技术支持团队检索某款软件的 API 文档、排错指南；
销售人员查阅产品参数、竞品对比资料；

并发用户预估：在企业内部搭建知识库，一般来说，并发用户数大约占总用户数的 1% - 5%。例如，在一个有 1000 名员工使用的企业知识库中，通常同时并发查询的用户可能在 10 - 50 人之间。

输出序列预估：由于这些查询涉及的内容较复杂，AI 需要提供较详细的回答，因此每次问答可能会生成 2000 个 token，相当于 1500-2000 个汉字（包括标点符号），相当于一篇简短的技术解答或政策说明。

接下来我们基于以下模型信息，结合上述分析的计算方法，计算显存资源消耗：

DeepSeek V3 模型信息：

激活参数量=37B
神经网络总共 61 层，其中 58 层是 MoE 层，3 层是非 MoE 层
Batch Size = 1
Sequence Length （token 数） = 2048
Hidden Size= 7168
激活专家数量= 8
压缩维度= 512
精度= FP16（2 字节）

10个用户并发时，总共显存消耗（计算方法已经写到Excel表中）：

在这里插入图片描述

三、总结

DeepSeek 采用 MoE 架构，相较于传统 Transformer，在推理阶段大幅降低了显存需求。显存消耗主要受模型参数量、KV Cache、激活值存储以及并发影响，同时不同精度格式（如 FP16、INT8）也会影响显存占用。由于 MoE 模型包含 MoE 层与非 MoE 层，两者的 KV Cache 和激活值计算方式有所不同，导致计算相对复杂。

为方便大家使用，笔者整理了一份 Excel 计算表，并附上常见 NVIDIA GPU 参数供参考。读者可以根据自己业务需求选择DeepSeek模型参数、并发用户数和序列长度，然后自动计算所需的显存，然后在NVIDIA GPU表格中选择合适的GPU卡。

在这里插入图片描述