大模型训练显存优化推理加速方案

funNLPer

已于 2024-02-24 20:18:44 修改

阅读量1.8k

点赞数

分类专栏：自然语言处理文章标签： stable diffusion AIGC 人工智能

于 2023-09-22 22:43:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/orangerfun/article/details/133106913

版权

本文探讨了深度学习模型的显存优化技术，包括fp32、fp16、bf16的混合精度训练以降低内存需求和提高计算速度，详细解释了混合精度训练的舍入误差和溢出错误及其解决方案——损失缩放。此外，还介绍了gradient checkpointing通过牺牲计算时间来节省内存，以及Xformers库在加速Transformer模型训练和减少显存占用上的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

当前的深度学习框架大都采用的都是fp32来进行权重参数的存储，比如Python float的类型为双精度浮点数fp64，pytorch Tensor的默认类型为单精度浮点数fp32。随着模型越来越大，加速训练模型的需求就产生了。在深度学习模型中使用fp32主要存在几个问题，第一模型尺寸大，训练的时候对显卡的显存要求高；第二模型训练速度慢；第三模型推理速度慢。其解决方案就是使用低精度计算对模型进行优化。本文主要讲解几种优化显存存储的方法。

文章目录

1. fp32、fp16、bf16混合精度训练
- 1.1 混合精度训练
2. gradient checkpointing
3. Xformers
参考

1. fp32、fp16、bf16混合精度训练

FP32 是单精度浮点数，1位符号位，8位指数，23位表示小数，总共32位
BF16 是对FP32单精度浮点数截断数据，即用8bit 表示指数，7bit 表示小数
FP16 半精度浮点数，用5bit 表示指数，10bit 表示小数；

与32位相比，采用BF16/FP16吞吐量可以翻倍，内存需求可以减半。但是这两者精度上差异不一样，BF16 可表示的整数范围更广泛，但是尾数精度较小；FP16 表示整数范围较小，但是尾数精度较高。

1.1 混合精度训练

直接使用半精度进行计算会导致的两个问题的处理：舍入误差(Rounding Error)和溢出错误(Grad Overflow / Underflow)

舍入误差
float16 的最大舍入误差约为 $2 ^{-10}$ ，比 float32 的最大舍入误差

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。