Transformer 基础系列02:手推显存占用

本文深入探讨Transformer模型的显存占用,包括训练过程中的模型状态和中间激活值显存,分析优化方案如Megatron-LM的3D并行和ZeRO Stage 1-3,以及中间激活值的重计算、TP、SP和PP策略。同时,讨论推理过程中的显存使用,如KV Cache的优化方法MQA和GQA。
摘要由CSDN通过智能技术生成

本文试图以最清晰的方式手动推导 Transformers 每一步的参数量到显存、计算量问题。理解底层,才能更好的做训练和优化。可能是目前最全的大模型显存优化方案分析。

本文内容包括
(1)模型训练和推理过程中的显存占用
(2)KV cache、中间激活值等显存占用
(3)模型状态显存优化方案: Megatron(3D) + Deepspeed(ZeRO)(更新于2023-09-11)
(4)激活值显存优化方案:重计算 + 3D 并行(更新于2023-08-11)
(5)KV Cache 显存优化方案:MQA 和 GQA(更新于2023-09-11)

前置知识和标记

  • 显存占用 = 参数数量 x 该参数精度占用的 bytes 数
  • 换算关系:Int8 需1 bytes, fp16 / bf16 数需 2 bytes, fp32 需要 4 bytes
  • transformer 模型的层数为 l l
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值