transformer显存占用计算

最新推荐文章于 2024-07-25 22:34:22 发布

seetimee

最新推荐文章于 2024-07-25 22:34:22 发布

阅读量468

点赞数 3

分类专栏：大模型技术细节文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/stephen147/article/details/140147968

版权

大模型技术细节专栏收录该内容

11 篇文章 0 订阅

订阅专栏

影响因素概述

模型训练框架

PyTorch：CUDA context占用几百MB显存，与版本有关。
模型参数大小：例如7B模型以FP16格式占用14GB显存。
临时Tensor：前向计算中产生，用于反向传播。
梯度：反向传播计算得到。
优化器状态：
- 全量微调：梯度与参数一样大。
- 普通SGD：无动量。
- 一阶动量优化器：如momentum-SGD，参数大小与模型一样。
- 二阶动量优化器：如Adam，参数大小为模型两倍。

前向计算临时Tensor显存占用

self-attention显存占用

输入矩阵I：形状[b, s, d]，显存占用2bsd bytes。
Q, K, V：形状[b, s, d]，QK^T占用4bsd bytes。
softmax：形状[b, h, s, s]，显存占用2bhs² bytes。
dropout：mask矩阵形状[b, h, s, s]，显存占用bhs² bytes。
score * V：形状[b, h, s, s]，显存占用2bhs² bytes。
W^O：形状[b, s, d]，显存占用2bsd bytes。
dropout：mask矩阵形状[b, s, d]，显存占用bsd bytes。

总计：11bsd + 5bhs² bytes。

MLP显存占用

线性层：
- 第一个：形状[b, s, d]，显存占用2bsd bytes。
- 第二个：形状[b, s, 4d]，显存占用8bsd bytes。
激活函数：形状[b, s, 4d]，显存占用8bsd bytes。
dropout：mask矩阵形状[b, s, d]，显存占用bsd bytes。

总计：19bsd bytes。

梯度和优化器显存占用

模型训练过程

混合精度训练：
- 前向传递和反向传播使用float16，计算梯度。
- 优化器更新时使用float32。
- 每个参数总计20bytes，总计显存占用20P bytes。
普通训练：
- 所有步骤使用float32。
- 每个参数总计24bytes，总计显存占用24P bytes。

模型推理过程

float16：显存占用约2P bytes。
float32：显存占用约4P bytes。

参考文章：知乎文章

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。