模型参数量与显存占用分析

最新推荐文章于 2025-04-30 11:00:00 发布

Pengsen Ma

最新推荐文章于 2025-04-30 11:00:00 发布

阅读量7.4k

点赞数 6

分类专栏：机器学习基础文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/weixin_43135178/article/details/140313635

版权

机器学习基础专栏收录该内容

195 篇文章

订阅专栏

常用模型参数量-显存占用估计统计如下表：

精度&显存模型占用量
		32bit(FP32)-单精度	16bit(FP16/BF16)-半精度	8bit(int8)	4bit(int4)
参数量
	1	4byte	2byte	1byte	0.5byte
	1B	4GB	2GB	1GB	0.5GB
	2B	8GB	4GB	2GB	1GB
	7B	28GB	14GB	7GB	3.5GB
	13B	52GB	26GB	13GB	6.5GB
	32B	128GB	64GB	32GB	16GB
	70B	280GB	140GB	70GB	35GB

训练显存

由于反向传播、Adam优化和Transformer架构等因素，保守估计，训练所需的显存是模型参数所占显存的4倍（1x 为模型、1x 为梯度、1~2x 为优化器）。

注1：使用AdamW优化器，显存需求为2x；使用SGD优化器，显存需求为1x

为了确保训练期间模型收敛，参数类型一般不能是int8或int4。通常使用FP32或量化到BF16。

例如，使用单浮点精度FP32训练一个1B模型大约需要16GB（4GB x 4）。

对于float32类型：1B（10亿参数）x 4（float的字节数）+ 1*4 + 2*4 = 4*4=16G
对于half/BF16类型参数：1B（10亿参数）x 2（每个BF16参数字节数）x 4 = 8 GB

推理显存

训练所需的显存是模型参数所占显存的1倍（1x 为模型）。

例如，使用单浮点精度FP32训练一个1B模型大约需要4GB（4GB x 1）。

对于float32类型：1B（10亿参数）x 4（float的字节数）=4G

transformer系列5---transformer显存占用分析_transformer 占用显存大小-CSDN博客

https://cuiyuhao.com/posts/c87c0f5d/

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Pengsen Ma

关注关注

6
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

怎么计算LLM所需内存； 32B：512GB（32精度）； 32B lore微调代码

ZJQ的博客

04-20

199

在AI模型领域，“32B” 代表模型参数量为320亿（32×10⁹ ），“32b” 一般指32比特（bit）的参数精度，即单精度浮点数（FP32）。总之，32B参数量的FP32模型训练，理论参数存储需128GB显存，实际训练保守估计需512GB，具体依优化器等训练配置及模型特性在较大范围内波动。对于32位单精度浮点数（FP32），每个参数占用4字节（Byte）。

模型全参数训练和LoRA微调所需显存的分析

热门推荐

herosunly的博客

05-05

21万+

本文介绍模型全参数训练和LoRA微调所需显存的分析，希望对学习和使用大模型的同学们有所帮助。文章目录 1. 前言 2. 全参数训练 3. LoRA微调

参与评论您还未登录，请先登录后发表或查看评论

QwQ-32B 测评和使用教程来了！

z551646的博客

03-08

2744

昨天凌晨，阿里开源了全新的推理模型：QwQ-32B。据官方发布消息，该模型性能比肩满血版 DeepSeek-R1（671B）！可以看到在官方放出的评测图中， QwQ-32B 与满血版 DeepSeek R1（671B）在五项基准测试的得分不相上下，更是远超同尺寸 R1 蒸馏模型。看到了这些消息后，我就开始上手深度测试。QwQ-32B开源链接：魔搭开源链接：https://modelscope.cn/models/Qwen/QwQ-32B。

千问推理模型QwQ-32B测评

2401_84495872的博客

03-12

1891

1. QWQ-32B满血版本和deepSeekR1 满血版本，在语言对话上已经明显好于o1-mini 和gpt4o，特别是一些和中文相关的问题，但由于o1-mini和gpt4o还有多模态的能力 QWQ-32B满血版本和deepSeekR1 满血版本还不支持还无法在多模态能力上进行比较，但相信应该快了。

模型显存占用及其计算量

u012370185的博客

07-11

1万+

1. 显存的占用当在GPU上跑一个模型时，显存的占用主要有两部分：模型的输出（特征图、特征图的梯度）、模型的参数（权重矩阵、偏置值、梯度） 1. 模型参数的显存占用：（例如：卷积核的参数、BN层、全连接层的参数等（池化层没有参数）） 2. 如果是在训练阶段，需要反向传播更新参数值，所以每个参数都需要存储梯度。所以模型参数的显存占用，与采用的优化器有关。 1）如果使...

深入解析大模型显存占用大小：公式、推导及实例分析

weixin_41174300的博客

10-03

1919

在深度学习中，模型的显存（GPU memory）占用是决定训练和推理效率的关键因素之一。特别是近年来，随着模型参数规模的不断增长，显存的合理分配和优化变得至关重要。本文将深入讲解模型在显存上的主要占用来源，提供详细的计算公式和具体例子，帮助读者理解显存需求的不同来源及如何进行优化。

深入解析大语言模型显存占用：训练与推理

十一月廿七风雨大作

03-27

1万+

本篇文章将帮助你优雅又快速地拒绝老板。看完本篇《深入解析大语言模型显存占用：训练与推理》，你将对模型占用显存的问题有个透彻的理解。

一文讲明白大模型显存占用（只考虑单卡）

Python_cocola的博客

08-21

3513

顾名思义，混合精度训练就是将多种不同的精度数据混合在一起训练，《 MIXED PRECISION TRAINING 》这篇论文里将FP16和FP32混合，优化器用的是Adam，如下图所示：MIXED PRECISION TRAINING论文里的训练流程图按照训练运行的逻辑来讲：Step1:优化器会先备份一份FP32精度的模型权重，初始化好FP32精度的一阶和二阶动量（用于更新权重）。Step2:开辟一块新的存储空间，将FP32精度的模型权重转换为FP16精度的模型权重。

如何根据模型参数量估计需要的显存？

人工智能讲师分享前沿技术

10-11

1万+

速算：大模型训练和推理的显存占用计算

最新发布

丨汀、的博客

04-30

122

速算：大模型训练和推理的显存占用计算

大模型显存占用计算

Foolbird123的博客

09-16

582

为了详细说明模型的参数数量和每个参数在显存中占用的空间大小，我们以。每个参数的显存占用。

大模型中 KV Cache 原理及显存占用分析

木尧大兄弟

07-12

5418

大模型推理阶段 KV Cache 的原理及显存占用情况。

LLMs之Transformer：深度剖析类Transformer的大语言模型中的显存占用估计(显存占用构成，训练阶段/推理阶段)、耗时估计(计算量占用构成，训练阶段/推理阶段)之详细攻略

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

05-15

1889

LLMs之Transformer：深度剖析类Transformer的大语言模型中的显存占用估计(显存占用构成，训练阶段/推理阶段)、耗时估计(计算量占用构成，训练阶段/推理阶段)之详细攻略目录 LLMs空间计算—显存占用估计 LLMs耗时计算—计算时间估计： LLMs空间计算—显存占用估计 Transformer模型的计算量主要集中在权重矩阵乘法计算。计算量分析表明，权重矩阵乘法的计算量相较于其他操作可以忽略不计。对于一个token，每个模型参数，需要进行2次浮点数运算。显

模型参数量与显存需求的关系

weixin_62533513的博客

04-06

355

模型参数量决定了模型的复杂度和存储需求。参数越多，模型需要的存储空间就越大。对于8B参数的模型，训练时显存需求大约是96GB到128GB。

AI大模型的推理显存占用分析

酌沧

05-28

3727

了解Transformer架构的AI大模型显存占用是非常重要的，特别是在训练和推理过程中。

区分模型的物理存储大小和GPU上显示的显存占用

weixin_42319617的博客

02-08

233

**初始显存占用**：模型加载到GPU时，显存占用不仅包括模型参数，还包括框架的运行时开销、中间变量、优化器状态等。- **显存占用变化**：训练过程中，显存占用主要受中间变量和优化器状态影响，而这些在训练过程中相对稳定，不会随epoch数显著增加。- **显存占用**：显存占用不仅包含模型参数，还包括框架开销、中间变量、优化器状态等。因此，显存占用通常大于模型的物理存储大小。- **总显存占用**：显存占用是模型参数、框架开销、中间变量等的总和，因此不能直接等同于模型的物理存储大小。

最近，大模型岗位爆了。。。

2301_82275412的博客

04-29

1316

重磅消息，国资委打响了国内AI第一枪！这意味着传统行业又迎来了一次大洗牌，现在国内头部人工智能公司已经开始用AI数字人助力各行各业，。除此之外，知名大厂也都在布局AI市场。懂的程序员年薪已经翻到风口之下，与其焦虑被行业淘汰，不如先人一步掌握 AI 大模型技术。为帮助大家提升竞争力，为了帮助普通程序员享受时代红利，掌控AI大模型技术，成为超级个体，给大家带来了AI大模型全套资料。

TensorFlow相关组件的安装

AAI666666的博客

01-11

2862

TensorFlow相关组件的安装

【深度学习】参数量、模型大小、显存

叶子的博客

06-08

1万+

【深度学习】参数量、模型大小、显存对于一个深度学习神经网络来说，其通常包含很多卷积层，用于不断提取目标的特征，或对目标进行最终定位或者分类。 1 数据存储精度与存储空间在深度学习神经网络中，最常见的数据格式是float32，占4个字节（Byte）。类似地，float16，占2个字节。1024个字节为1KB，1024x1024个字节为1MB。那么存储10000个参数需要的内存大小为10000x4 Bytes，约为39KB。存储100万个参数需要的内存大小为39x100/......

llama factory微调32B模型

03-22

<think>嗯，用户想了解如何使用Llama Factory微调32B模型。首先，我需要确认Llama Factory是什么。我记得它是一个用于微调LLM的开源库，支持多种模型和数据集。接下来，32B模型应该是指参数量为320亿的大模型，比如LLaMA或类似架构。用户可能需要知道准备步骤、配置方法、训练技巧等。用户可能是研究人员或开发者，想在自己的任务上微调大模型。需要明确他们是否有足够的计算资源，比如多块GPU，因为32B模型对显存要求很高。可能要考虑参数高效微调方法，比如LoRA，以减少资源消耗。需要分步骤说明：环境安装、数据准备、配置调整、启动训练和验证。同时，注意事项部分要强调资源需求、过拟合风险和分布式训练。可能还需要提醒使用最新版本和社区支持。需要检查是否有遗漏的步骤，比如数据格式转换或者参数配置细节。确保使用中文，术语准确，结构清晰。可能用户会遇到显存不足的问题，所以建议具体配置，比如使用多少块A100，以及如何调整batch size和梯度累积。另外，验证部分要说明如何加载模型进行评估，确保示例代码正确。</think>以下是对使用Llama Factory微调32B模型的分步说明： --- ### **一、准备工作** 1. **硬件要求** - GPU配置：至少8×A100 80G（推荐使用NVLink互联） - 显存需求：约320GB显存（使用LoRA可降至约160GB） - 存储：准备1TB以上SSD用于存放模型和数据集 2. **环境搭建** ```bash conda create -n llama_factory python=3.10 conda activate llama_factory git clone https://github.com/hiyouga/LLaMA-Factory cd LLaMA-Factory pip install -r requirements.txt ``` --- ### **二、数据准备** 1. **格式规范** ```json [ { "instruction": "生成广告文案", "input": "产品：智能手表，目标人群：运动爱好者", "output": "突破极限，XX智能手表..." }, // 至少准备1000条样本 ] ``` 2. **预处理脚本** ```python from llama_factory.data import make_dataset make_dataset.convert_to_sharegpt("raw_data.json", "processed_data.json") ``` --- ### **三、配置调整** 1. **关键参数设置（train_args.yaml）** ```yaml model_name_or_path: meta-llama/Llama-2-32b use_peft: true # 启用参数高效微调 peft_type: lora # 使用LoRA方法 lora_rank: 64 # 平衡效果与显存 per_device_train_batch_size: 2 gradient_accumulation_steps: 16 learning_rate: 1e-5 num_train_epochs: 3 ``` --- ### **四、启动训练** 1. **分布式训练命令** ```bash torchrun --nproc_per_node=8 src/train_bash.py \ --stage sft \ --model_name_or_path meta-llama/Llama-2-32b \ --do_train \ --dataset_dir processed_data \ --output_dir outputs/llama2-32b-sft \ --overwrite_cache \ --fp16 ``` --- ### **五、验证与部署** 1. **效果评估** ```python from transformers import pipeline generator = pipeline("text-generation", model="outputs/llama2-32b-sft", device_map="auto") print(generator("生成关于新能源车的文案：", max_length=200)) ``` --- ### **注意事项** 1. **显存优化技巧** - 启用`flash_attention_2`可减少15%显存占用 - 使用`gradient_checkpointing`梯度检查点技术 2. **常见问题** - OOM错误：尝试降低`per_device_train_batch_size`，增加`gradient_accumulation_steps` - 收敛缓慢：尝试`learning_rate`在1e-6到3e-5之间调整 --- ### **进阶方案** 对于企业级需求可考虑： 1. 混合精度训练（`bf16` + `tf32`） 2. 3D并行训练（数据+流水线+张量并行） 3. 使用Megatron-LM集成方案建议访问Llama Factory官方GitHub仓库查看最新更新： https://github.com/hiyouga/LLaMA-Factory