LLM训练的显存占用(LoRA、QLoRA)

smartcat2010

已于 2024-12-16 22:14:26 修改

阅读量1.1k

点赞数

文章标签：计算框架

于 2024-08-24 12:31:45 首次发布

原文链接：https://zhuanlan.zhihu.com/p/713256008

版权

混合精度训练：

为什么不全都用FP16？

FP16精度的范围比FP32窄了很多，这就会产生数据溢出和舍入误差两个问题（全网最全-混合精度训练原理），这会导致梯度消失无法训练，所以我们不能全都用FP16，还需要FP32来进行精度保证。BF16不会产生数据溢出了，业界的实际使用也反馈出比起精度，大模型更在意范围。

例子（暂时不看激活值占用）

对于llama3.1 8B模型，FP32和BF16混合精度训练，用的是AdamW优化器，请问模型训练时占用显存大概为多少？

解：

模型参数：16（BF16） + 32（PF32）= 48G

梯度参数：16（BF16）= 16G

优化器参数：32（PF32） + 32（PF32）= 64G

不考虑激活值的情况下，总显存大约占用（48 + 16 + 64） = 128G

KVCache动图：

KV cache的目的是减少延迟，也就是为了推理的速度牺牲显存。

我们推理就是在不断重复地做”生成下一个token“的任务，生成当前token 仅仅与当前的QKV和之前所有KV有关，那么我们就可以去维护这个KV并不断更新。

KVCache计算公式：

（第1个2是K+V，第2个2是BP16 2个字节）

举例，对于llama7B，hiddensize = 4096，seqlength = 2048 ， batchsize = 64，layers = 32：

降低显存最直观的方式：减少batch-size，由64降至1，显存降至约1GB了。

MQA&GQA:

把上式的hiddensize，换成heads_num * head_dim

对于普通MHA，heads_num*head_dim就等于hiddensize

对于GQA, heads_num从64变为8 （每8个heads共享1个KV)

对于MQA, heads_num变为1