FP16\FP32\INT8\混合精度的含义

辣大辣条

已于 2022-09-08 11:30:03 修改

阅读量1.3w

点赞数 5

分类专栏：算法研读文章标签：神经网络人工智能深度学习

于 2022-09-08 11:12:38 首次发布

本文链接：https://blog.csdn.net/pangxing6491/article/details/126760421

版权

算法研读专栏收录该内容

89 篇文章

订阅专栏

本文介绍了浮点数精度的不同类型，如FP32、FP16和INT8。FP32是标准精度，FP16是半精度，INT8则是用于定点计算，适合端侧运算。混合精度计算结合了FP16和FP32的优势。INT8的范围为-128至127，由于符号位，其能表示的整数数量为128个。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

FP32 是单精度浮点数，用8bit 表示指数，23bit 表示小数，占用4字节；

FP16半精度浮点数，用5bit 表示指数，10bit 表示小数，占用2字节；

INT8，八位整型占用1个字节，INT8是一种定点计算方式，代表整数运算，一般是由浮点运算量化而来。在二进制中一个“0”或者“1”为一bit，INT8则意味着用8bit来表示一个数字。因此，虽然INT8比FP16精度低，但是数据量小、能耗低，计算速度相对更快，更符合端侧运算的特点；

混合精度：简单的讲就是使用fp16进行乘法和存储，只使用fp32进行加法操作，避免累加误差;

在数据表示范围上，FP32和BF16 表示的整数范围是一样的，小数部分表示不一样，存在舍入误差；FP32和FP16 表示的数据范围不一样，在大数据计算中，FP16存在溢出风险。

以下为int8范围为何是-128 至 127的解释：

int8占1个字节,1字节(byte)占8位(bit)

其中最高位代表符号位 1-负号；0-正号

那么最大数值的二进制为：
0 1 1 1 1 1 1 1
换算成10进制为从低位到高位开始计算
0       1       1       1       1       1       1       1
0*2^7 + 1*2^6 + 1*2^5 + 1*2^4 + 1*2^3 + 1*2^2 + 1*2^1 + 1*2^0
0     + 64    + 32    + 16    + 8     + 4     + 2     + 1
= 127

最小数值的二进制应与最大数值相反
1 0 0 0 0 0 0 0
换算成10进制为从低位到高位开始计算
1       0       0       0       0       0       0       0
1*2^7 + 0*2^6 + 0*2^5 + 0*2^4 + 0*2^3 + 0*2^2 + 0*2^1 + 0*2^0
128   + 0     + 0     + 0     + 0     + 0     + 0     + 0
= 128

其实还有一种很好理解的解释
1.int8占1个字节(byte) 也就是8个二进制位(bit)
2.每个二进制位可以存储0 和 1 两个数，8个二进制位就有2^8 = 256种组合(可以存储256个数)
3.int8为有符号，所以正数和负数将平分256个数。256 / 2 = 128
4.负数为128个数最小值为-128
5.正数为128个数，0占一个数最大值为+127

如果是uint8(8bit无符号-没有负数) 2^8 = 256
0 占一个数，所以最大是255