关于LLM你或许不知道的事情-为什么大语言模型的训练和推理要求比较高的精度，如FP32、FP16？浮点运算的精度概念详解//（转载）

思考实践

已于 2023-12-09 12:22:50 修改

阅读量2.6k

点赞数

分类专栏： LLM 文章标签：算法人工智能大模型算力混合精度浮点数

于 2023-12-09 12:14:26 首次发布

原文链接：https://www.datalearner.com/blog/1051698670081638

版权

LLM 专栏收录该内容

36 篇文章

订阅专栏

本文详细解释了大语言模型训练中为何需要高精度如FP32，对比了FP32、FP16等浮点运算精度，讨论了它们在数值表示和应用中的优缺点，以及为何FP32通常用于训练。还介绍了BF16和FP8作为低精度选项的适用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

为什么大语言模型的训练和推理要求比较高的精度，如FP32、FP16？浮点运算的精度概念详解 | 数据学习者官方网站(Datalearner)

感谢有价值的内容分享给大家~

文章中出现的CS基本数据储存知识：符号、指数、尾数：

计算机科学导论：第三章数据存储 - 知乎 (zhihu.com)

为什么大语言模型的训练和推理要求比较高的精度，如FP32、FP16？浮点运算的精度概念详解

标签：#FP16##FP32##大模型训练##精度# 时间：2023/10/30 20:48:01 作者：小木

在大语言模型的训练和应用中，计算精度是一个非常重要的概念，本文将详细解释关于大语言模型中FP32、FP16等精度概念，并说明为什么大语言模型的训练通常使用FP32精度。

浮点运算中的精度概念

让我们通过一个简单的比喻来理解精度的概念。假设你有一个非常精细的尺子，它可以测量到毫米级别的长度。但是如果你要测量更小的长度，比如微米或纳米级别，这个尺子就不够用了。在这个例子中，尺子的精度就是毫米，它不能测量比毫米更小的单位。

现在，将这个比喻应用到计算机的浮点计算中。计算机在进行数值运算时，有一个固定的位数来表示数值，就像尺子有固定的长度和刻度一样。这个固定的位数决定了计算机的“尺子”能够多么精细地测量数值。如果一个数值的真实值非常小，或者两个数值非常接近，计算机的“尺子”可能就不能准确地测量它们，这就是精度问题。

为什么会有精度的概念呢？这主要是因为计算机的存储空间是有限的。每一个数都需要一些存储空间来表示，而存储空间的大小限制了能够表示的数的精度。如果我们想要更高的精度，就需要更多的存储空间和计算资源，这可能会增加计算的复杂性和成本。所以，精度是我们在使用计算机进行数值计算时必须考虑的一个重要因素，它是我们在追求准确结果和节省计算资源之间需要做出的一种权衡。

计算几种几种典型的精度（FP32、FP16、BF16、FP8）表示

FP32、FP16、BF16和FP8都是计算中使用的数字表示形式，特别是在浮点运算领域。这些格式主要通过它们使用的位数来区分，这影响了它们的精度、范围和内存要求。下面是一个表格形式呈现的这些格式的比较：

格式	位大小	精度	范围	内存使用量	应用	性能
FP32	32位	高	宽	高	3D游戏、高性能计算（HPC）	标准
FP16	16位	低于FP32	狭于FP32	低于FP32	深度学习（DL）、神经网络训练	相对于FP32有更快的计算速度和更低的内存使用量
BF16	16位	低于FP16	宽于FP16	与FP16相似	混合精度训练、DL	性能各异，但通常允许比FP16更快的训练和更宽的范围
FP8	8位	四者中最低	由指数和尾数指定（例如，最多+/-57344）	四者中最低	某些DL架构，尽管支持可能有限	最快的计算速度，四者中最低的内存使用量，但精度较低

FP32 (32位浮点)：
- 最初由于3D游戏中所需的计算而被GPU重点关注。
- 通常用于需要高精度的应用，如高性能计算（HPC）。
FP16 (16位浮点)：
- 也被称为半精度浮点。
- 主要用于深度学习（DL）应用，因为它需要的内存是FP32的一半，理论上计算时间也比FP32少。
- 由某些GPU架构支持，如NVIDIA的V100 GPU，其中包含支持混合精度训练的张量核心。
BF16 (Bfloat16或Brain Floating Point 16)：
- 是FP16和FP32的交叉。
- 有效加速了许多深度学习模型的收敛，同时保持了大的动态范围。
FP8 (8位浮点)：
- 提供四者中最快的计算速度和最低的内存使用量，但精度较低。
- 存储的值的精度较低是其权衡之处。
- FP8的支持和应用可能比其他格式更有限，可能特定于某些架构，如NVIDIA的Hopper。

这些格式在精度和内存使用之间提供了权衡，像FP16、BF16和FP8这样的低位格式允许更快的计算和减少的内存使用，但是以精度为代价。它们在不同的计算任务中起着重要作用，特别是在深度学习和神经网络训练领域，其中精度、速度和内存使用之间的平衡至关重要。

FP16与BF16的区别

BF16 (Bfloat16) 和 FP16 (半精度浮点数) 是两种不同的浮点数表示格式，它们都使用 16 位来存储数值，但是它们在符号位、指数部分和尾数部分的分配上有所不同。下面通过一个比喻来形象化解释它们之间的区别：

想象一下，我们有两个不同品牌的16格储物柜来存放各种各样的物品。每个格子可以看作是一位，总共有16位。我们可以将这两个储物柜分别比作是BF16和FP16。

FP16（半精度浮点数）的储物柜:
- FP16的储物柜有1个格子用于存放符号位（正负号），5个格子用于存放指数，以及10个格子用于存放尾数。
- 这个储物柜能存放比较多样化的物品，因为它有10个格子用于存放尾数，这意味着它能够比较精细地表示数值，但是它的指数范围（由5格格子决定）相对较小，所以它能覆盖的数值范围不是很大。
BF16（Bfloat16）的储物柜:
- BF16的储物柜也有1个格子用于存放符号位，但它有8个格子用于存放指数，只有7个格子用于存放尾数。
- 这个储物柜的特点是能存放各种大小的物品，因为它有8个格子用于存放指数，这意味着它能覆盖一个非常大的数值范围。但是它的尾数部分较小（只有7格格子），所以它表示数值的精细程度不如FP16。

通过这个比喻，你可以理解到BF16和FP16之间的区别主要在于它们如何在指数和尾数之间分配位数，从而影响到它们能够表示的数值范围和精度。FP16更倾向于提供更高的精度，而BF16更倾向于提供更大的数值范围。

为什么大语言模型通常使用FP32精度训练

大型语言模型通常使用FP32（32位浮点）精度进行训练，因为其较高的数值精度可以带来更好的整体模型。以下是一些关键点：

较高的数值精度：FP32比如FP16（16位浮点）这样的低精度格式提供更高的数值精度。这种更高的精度可以在训练期间导致更准确的计算，从而产生更有效的模型。
稳定性：在像FP16这样的低精度格式中进行训练可能会引入数值稳定性问题。例如，梯度下溢或溢出的机会更高，优化器的计算精度较低，累加器超出数据类型的范围的风险更高。
兼容性：像PyTorch这样的深度学习框架带有内置的工具来处理FP16的限制，但即使有了这些安全检查，由于参数或梯度超出可用范围，大型训练工作常常失败。

然而，尽管有这些优势，FP32也带来了更大的内存和训练时间要求。为了缓解这些问题，经常使用混合精度训练。混合精度训练将一些训练操作放在FP16而不是FP32中。在FP16中进行的操作需要较少的内存，并且在现代GPU上的处理速度可以比FP32快达8倍。尽管精度较低，但大多数在FP16中训练的模型没有显示任何可测量的性能下降。