[深度学习][LLM]：浮点数怎么表示，什么是混合精度训练？

本文链接：https://blog.csdn.net/qq_41897558/article/details/141900421

混合精度训练

混合精度训练

在日常深度学习训练中，一般使用单精度浮点数（float:FP32） 来表示参数并进行相关训练任务。那么浮点数在内存中是如何存储的呢？

在正式开始介绍混合精度训练之前，让我们先对半精度(FP16)、单精度(FP32)、双精度(FP64) 相关基础知识进行介绍。

1. 浮点表示法：IEEE二进制浮点数算术标准（IEEE 754）

IEEE二进制浮点数算术标准（IEEE 754）是20世纪80年代以来最广泛使用的浮点数运算标准，为许多CPU与浮点运算器所采用。这个标准定义了表示浮点数的格式（包括负零-0）与反常值（denormal number），一些特殊数值（（无穷（Inf）与非数值（NaN）），以及这些数值的“浮点数运算符”；它也指明了四种数值舍入规则和五种例外状况（包括例外发生的时机与处理方式）。

1.1 浮点数剖析

一个浮点数 (Value) 的表示其实可以这样表示：
$\text{Value=sign} \times \text{exponent} \times \text{fraction} \\ 1.M... \times2^E,E=\text{exponent};M=\text{fraction}$
也就是浮点数的实际值，等于符号位（sign bit）乘以指数偏移值（exponent bias）再乘以分数值（fraction）。