6 大模型参数计算

汀沿河

已于 2024-07-31 11:16:35 修改

阅读量531

点赞数 15

分类专栏： # 9transformers 文章标签：人工智能

于 2024-07-31 11:15:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_28611929/article/details/140817716

版权

9transformers 专栏收录该内容

19 篇文章 0 订阅

订阅专栏

在讨论大型深度学习模型的内存占用时，我们通常考虑以下几个关键组成部分：

模型参数：这是模型的权重和偏置等可学习参数，它们构成了模型的主要内存消耗部分。
梯度：在反向传播过程中，模型参数的梯度需要被计算和存储，以用于参数更新。
优化器状态：如使用Adam或RMSprop等自适应优化器时，需要额外的内存来存储每个参数的一阶和二阶矩估计。
激活值：前向传播过程中，每一层的输出（激活值）在反向传播之前需要被缓存，以便计算梯度。
批量数据：每个训练迭代需要将一个批次的数据加载到内存中。
额外开销：包括计算图的元数据、临时变量、框架的内部缓冲区和缓存等。

计算内存占用

1. 模型参数

假设模型有 𝑝 个参数，每个参数的数据类型是单精度浮点数（占用4字节），那么模型参数将占用 𝑝×4 字节的内存。

2. 梯度

梯度的内存占用与模型参数相同，为 𝑝×4 字节。

3. 优化器状态

对于Adam优化器，每个参数需要额外存储一阶矩和二阶矩，所以额外的内存占用是 2×𝑝×4 字节。

4. 激活值

这取决于模型的架构和批量大小。假设一个模型有 𝑙l 层，每层的激活值大小为 𝑎a（字节），批量大小为 𝑏，那么激活值的内存占用为 𝑙×𝑎×𝑏字节。

5. 批量数据

假设一个批次的数据大小为 𝑑 字节，那么批量数据的内存占用为 𝑑 字节。

6. 额外开销

这部分开销难以精确计算，因为它依赖于具体使用的深度学习框架和计算设备的特性，但通常可以认为它与模型和数据的大小成正比。

总内存占用估算

总内存占用（𝑀M）可以大致估算为：

𝑀≈𝑝×4+𝑝×4+2×𝑝×4+𝑙×𝑎×𝑏+𝑑+额外开销

𝑀≈7×𝑝×4+𝑙×𝑎×𝑏+𝑑+额外开销

这里，7×𝑝×4 包括了模型参数、梯度和优化器状态的内存占用。

示例

计算一个拥有10亿（1B）参数的深度学习模型在训练过程中的内存占用，需要考虑模型参数本身、梯度、优化器状态以及其他相关开销。以下是一个详细的计算过程：

1. 模型参数

假设每个参数是一个单精度浮点数，占用4字节，那么10亿个参数将占用的内存为：

1𝐵×4 𝑏𝑦𝑡𝑒𝑠=4𝐺𝐵

2. 梯度

梯度的内存占用与模型参数相同，因为梯度的形状和数据类型与模型参数一致。所以梯度也将占用4GB的内存。

3. 优化器状态

对于Adam优化器，每个参数需要额外存储一阶矩（动量）和二阶矩（梯度平方的滑动平均），这意味着每个参数需要额外的8字节（4字节用于一阶矩，4字节用于二阶矩）。因此，优化器状态将占用：

1𝐵×8 𝑏𝑦𝑡𝑒𝑠=8𝐺𝐵

4. 激活值

激活值的内存占用取决于模型的架构和批量大小。假设每层的激活值占用空间为 𝐴A 字节，批量大小为 𝑏b，如果模型有 𝑙l 层，那么激活值的总内存占用为：

l×A×b bytes

这个值很难给出一个具体的数字，因为它依赖于模型的具体结构和批量大小的选择。然而，对于一个深度模型，这部分内存可以是非常大的，有时甚至会超过模型参数本身的内存占用。

5. 批量数据

批量数据的内存占用取决于输入数据的大小和批量大小。如果一个样本占用 𝐷 字节，批量大小为 𝑏b，那么批量数据将占用：

𝐷×𝑏 𝑏𝑦𝑡𝑒𝑠

将以上各项相加，可以得到总内存占用的一个粗略估计：

总内存=4𝐺𝐵+4𝐺𝐵+8𝐺𝐵+𝑙×𝐴×𝑏+𝐷×𝑏+额外开销总内存 = 4GB+4GB+8GB+l×A×b+D×b+额外开销

总内存=16𝐺𝐵+𝑙×𝐴×𝑏+𝐷×𝑏+额外开销总内存

= 16GB+l×A×b+D×b+额外开销

关注

15
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
6 大模型参数计算

模型训练过程内存计算
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。