AI大模型的推理显存占用分析

最新推荐文章于 2024-06-27 16:50:16 发布

酌沧

最新推荐文章于 2024-06-27 16:50:16 发布

阅读量1.8k

点赞数 38

分类专栏： AI 文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jiaxin576/article/details/139276270

版权

AI 专栏收录该内容

19 篇文章 0 订阅

订阅专栏

了解Transformer架构的AI大模型显存占用是非常重要的，特别是在训练和推理过程中。以下是详细解释和分析这些组成部分及其影响的专业描述：

1 显存占用

1.1 模型本身参数

模型的参数包括所有的权重和偏置项，这些参数需要存储在显存中，以便在训练和推理过程中进行计算。

占用字节：每个FP32参数占用4个字节，每个FP16参数占用2个字节。
计算：模型参数数量（例如，BERT-base模型大约有110M参数）。如果使用FP32表示，则总显存占用为 110M * 4 bytes。

1.2 模型的梯度动态值

在训练过程中，每个模型参数都有对应的梯度值，这些梯度用于更新模型参数。梯度存储同样需要显存。

占用字节：梯度和模型参数类型相同，所以FP32梯度占用4个字节，FP16梯度占用2个字节。
计算：梯度存储显存占用与模型参数相同，例如，如果模型参数使用FP32，则梯度显存占用为 参数数量 * 4 bytes。

1.3 优化器参数

优化器（如Adam）在训练过程中需要存储额外的参数，如一阶动量和二阶动量。这些参数也需要显存来存储。

Adam优化器：存储m和v两个参数，即需要2倍的模型参数量。
占用字节：每个FP32参数占用4个字节，每个FP16参数占用2个字节。
计算：例如，使用Adam优化器和FP32表示，则优化器参数显存占用为 2 * 参数数量 * 4 bytes。

1.4 模型的中间计算结果

在前向传播和反向传播过程中，需要存储每一层的中间计算结果，这些结果用于反向传播的求导。这些中间结果的显存占用与批量大小（batch size）、序列长度（sequence length）和每层的输出维度（hidden size）有关。

前向传播：每一层的输入x和输出都需要存储。
反向传播：中间结果的计算图不会被释放，以便计算梯度。
占用字节：这部分的显存占用难以精确计算，但可以通过调整batch size和sequence length来估算显存差值。
计算方法：常用的方法是实验性地调整batch size和sequence length，观察显存变化来估算中间结果的显存占用。

1.5 KV Cache

在推理过程中，尤其是在自回归模型（如GPT）中，需要缓存先前计算的键和值（Key和Value）以加速计算。这些缓存需要显存来存储。

占用字节：这部分的显存占用与输入的序列长度、批量大小和注意力头数有关。
计算方法：具体计算公式取决于模型的架构和缓存策略。

不同的参数类型所占的字节对比表

类型	所占字节
FP32	4
FP16	2
INT8	1

2 具体示例

假设我们有一个Transformer模型，其架构和超参数如下：

层数（layers）：12
隐藏层大小（hidden_size）：768
注意力头数（num_heads）：12
词汇表大小（vocab_size）：30522
最大序列长度（sequence_length）：512
批量大小（batch_size）：1
数据类型：FP32（每个参数4字节）

为了具体计算一个具有上述参数的Transformer模型在推理时的显存占用，我们需要考虑以下几个部分：

模型本身的参数
输入和输出激活值
中间计算结果
KV Cache

2.1 模型本身的参数

嵌入层

词嵌入矩阵：vocab_size * hidden_size
[
30522 \times 768 = 23440896 \text{ 个参数}
]
位置嵌入矩阵：sequence_length * hidden_size
[
512 \times 768 = 393216 \text{ 个参数}
]

嵌入层总参数：
[
23440896 + 393216 = 23834112 \text{ 个参数}
]

Transformer 层

每层的主要参数包括：

注意力层的 Q, K, V 权重和偏置：
[
3 \times (hidden_size \times hidden_size) = 3 \times (768 \times 768) = 1769472 \text{ 个参数}
]
输出权重和偏置：
[
hidden_size \times hidden_size = 768 \times 768 = 589824 \text{ 个参数}
]
前馈网络（两层）：
[
2 \times (hidden_size \times 4 \times hidden_size) = 2 \times (768 \times 4 \times 768) = 4718592 \text{ 个参数}
]

每层总参数：
[
1769472 + 589824 + 4718592 = 7077888 \text{ 个参数}
]

12层总参数：
[
12 \times 7077888 = 84934656 \text{ 个参数}
]

总参数数量

模型总参数数量：
[
23834112 + 84934656 = 108768768 \text{ 个参数}
]

每个FP32参数占用4个字节：
[
108768768 \times 4 = 435075072 \text{ 字节} = 435.08 \text{ MB}
]

2.2 输入和输出激活值

假设模型在推理时的输入和输出激活值为 batch_size * sequence_length * hidden_size，对于每个层的激活值也相同。

每层激活值：
[
batch_size \times sequence_length \times hidden_size = 1 \times 512 \times 768 = 393216 \text{ 个元素}
]

每个FP32激活值占用4个字节：
[
393216 \times 4 = 1572864 \text{ 字节} = 1.57 \text{ MB}
]

2.3 中间计算结果

由于反向传播不需要考虑推理时的显存占用，我们可以忽略这部分。

2.4 KV Cache

在推理过程中，需要缓存每一层的键和值（Key和Value）：

每层的KV Cache占用：
[
2 \times batch_size \times sequence_length \times hidden_size = 2 \times 1 \times 512 \times 768 = 786432 \text{ 个元素}
]

每个FP32值占用4个字节：
[
786432 \times 4 = 3145728 \text{ 字节} = 3.14 \text{ MB}
]

12层的KV Cache总占用：
[
12 \times 3.14 \text{ MB} = 37.68 \text{ MB}
]

2.5 总显存占用

[
\text{模型参数} + \text{输入和输出激活值} + \text{KV Cache}
]

显存占用计算：

模型参数：435.08 MB
激活值：1.57 MB（每层）× 12层 = 18.84 MB
KV Cache：37.68 MB

[
\text{总显存占用} = 435.08 \text{ MB} + 18.84 \text{ MB} + 37.68 \text{ MB} = 491.60 \text{ MB}
]

在推理过程中，一个具有上述配置的Transformer模型大约需要491.60 MB的显存。这一估算没有包括额外的显存开销，例如模型加载时的一些临时数据结构和框架本身的开销。实际使用中，可能还需要一些额外的显存来处理这些开销。

关注

38
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
AI大模型的推理显存占用分析

了解Transformer架构的AI大模型显存占用是非常重要的，特别是在训练和推理过程中。
复制链接

扫一扫

专栏目录

博客等级

码龄5年

89
原创

1719
点赞

1183
收藏

2001
粉丝

关注

私信

热门文章

分类专栏

python 27篇
AI 19篇
运维 6篇
Android 16篇
linux 11篇
web 10篇
数据库 1篇

最新评论

Python安装路径信息
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
Python日志配置策略
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh_CN/latest 使用原生 loggng封装，兼容性和替换性100%,大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 1 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、 nb_log 兼容包含loguru色彩模式,loguru只是nb_log的子集之一. 相比 loguru 有10胜。 pip install nb_log 。
一个管理全局实例的python框架
普通网友: 支持一下，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
python格式化显示复杂对象例如字典
普通网友: 感谢大佬分享好文，学到了不少新知识，支持大佬，期待大佬持续输出优质文章！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Android虚拟机加载类的PathClassLoader调用分析
普通网友: 这篇文章是优质之作，内容充实，结构明晰，语言流畅且通俗易懂，适合广大读者阅读。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

目录

分类专栏

python 27篇
AI 19篇
运维 6篇
Android 16篇
linux 11篇
web 10篇
数据库 1篇

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。