[通俗易懂]float32、float16、bfloat16之间的差异

最新推荐文章于 2025-03-25 09:47:42 发布

凌漪_

最新推荐文章于 2025-03-25 09:47:42 发布

阅读量1.4w

点赞数 14

文章标签：语言模型机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a61022706/article/details/135190055

版权

本文讨论了qlora中使用不同浮点精度（如bfloat16、float16和float32）的训练策略，指出bfloat16通常首选但受限于硬件，V100以上可选float16，而float16存在溢出风险。混合精度训练通过主用FP32和使用FP16/BF16加速计算是常见做法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

一、首先声明
二、 float32、float16、bfloat16之间的差异

一、首先声明

qlora一般用bfloat16的精度类型进行训练，然而支持bfloat16精度往往需要V100以上的卡（不包括V100）。可惜本人服务器上只有V100类型的卡，想要使用qlora进行训练需要把精度改为float16。（关于不同精度类型的区别在下面会介绍）
使用float16进行训练时可能会出现数值溢出，训练loss不稳定等。使用V100的话利用int8类型进行lora训练可能更方便。

二、 float32、float16、bfloat16之间的差异

不同的浮点数据类型：float32、float16、bfloat16等，可以称之为精度，而模型大小 = 模型参数量x精度。以下是不同精度之间的区别：

Float32 ：又称FP32(float point 32)，是具有32位的浮点数，其中有1个符号位，8位表示指数，23位表示尾数。是标准的数据类型。
Float16：又称FP16，其位数只有FP32的一半，指数保留5位，尾数保留10位。FP16所能表示的最大的数字是64k，存在上溢和下溢的风险。
Bfloat16：又称BF16，其指数位数与FP32相同，都是8位，因此表示的数据范围更广，但是精度比FP16要差。

因为1字节（Byte）=8比特（bit），因此32位=4字节。
FP32称为全精度（4字节），FP16和BF16可以称为半精度（2字节）。
如果是一个7B的模型，使用全精度的FP32版本，大小就为7X4 = 28GB
使用半精度（FP16/BF16），大小就为14GB。

混合精度训练指的是使用FP32作为主权重，而在进行前向和后向传播时使用FP16/BF16来提升训练速度，最后在梯度更新阶段再使用FP16/BF16梯度更新FP32主权重。

参考

https://huggingface.co/blog/zh/hf-bitsandbytes-integration

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。