大模型各参数的推理、训练和微调分别需要多大显存？

aduu

已于 2025-05-06 10:31:40 修改

阅读量1.4k

点赞数 38

分类专栏： LM 文章标签： swift python 人工智能

于 2025-05-06 10:00:26 首次发布

本文链接：https://blog.csdn.net/a_yhr/article/details/147728299

版权

LM 专栏收录该内容

3 篇文章

订阅专栏

大模型各参数的推理、训练和微调分别需要多大显存？

2025年4月29日，阿里开源新一代通义千问模型 Qwen3。其中包含两个MoE模型的权重：Qwen3-235B-A22B，一个拥有 2350 多亿总参数和 220 多亿激活参数的大模型，以及Qwen3-30B-A3B，一个拥有约 300 亿总参数和 30 亿激活参数的小型 MoE 模型。此外，六个 Dense 模型也已开源，包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B。

在这里插入图片描述

影响因素

那么对各个模型而言，在推理、训练和LoRA微调过程中的显存需求该如何计算呢？LlamaFactory的官网有大模型显存需求分析工具，但是已经很久没有更新了：显存计算器 - 大模型显存需求分析工具 | LlamaFactory | LlamaFactory。大模型的显存需求主要受到以下几个变量的直接影响：

模型的参数量；
训练/推理时的精度模式（FP32/FP16/BF16/INT8，分别代表32 位单精度浮点数/16 位半精度浮点数/16 位脑浮点数/8 位整型量化）；
训练所采用的优化器的类别（SGD/AdamW）

推理显存需求

在推理阶段，显存主要用于存储模型的权重，所以粗略的计算方法就是 显存占用=参数数量 * 类型大小，此处以BF16类型的Qwen3-8B模型为例，因为BF16为16 位脑浮点数，每个参数需要占用2个字节，8B个参数一共需要8B×2=16GB，也就是说存储模型的权重就需要大约16GB的显存空间了，此外，还有包括KV Cache（键值缓存）等需要用到显存资源的部分。

训练显存需求

训练阶段一般使用的参数类型都是FP32或BF16，而显存主要包括两个部分，分别是模型状态显存（Model States Memory）和残余状态显存（Residual States Memory），前者主要包含模型参数、梯度以及优化器的状态参数，其中梯度等于模型参数的一倍。