以下作为笔记,部分来自GPT4o
1、非对称量化
asymmetric_quantized-u8
其中 Qx代表量化后的数,f 代表浮点数,s表示缩放系数(float32 类型), z 代表实数为 0 时对应的量化值(int32 类型),最后把 quant 饱和到[range_min, range_max],目前只支持 uint8 类型,所以 range_max 等于 255,range_min 等于 0 对应的反量化公式如下
公式:Qx=clamp(f/s +z , 0, 255)
2、动态定点量化
动态定点数的计算公式通常表示为Q格式,其中Qm.n表示具有m位整数部分和n位小数部分的定点数格式。对于 dynamic_fixed_point-i8
和 dynamic_fixed_point-i16
,其计算公式可以如下表示:
dynamic_fixed_point-i8:
- 格式:Q7.1
- 计算公式:
- 数值范围:从 -128 到 +127,小数位数为1位。
- 具体转换公式:对于一个浮点数值 x,其定点数表示为 Q7.1格式的定点数 Qx,可以计算为: Qx=round(x*2^1)
- 其中, round 是四舍五入函数。在这种情况下,小数部分只有一位,因此乘以 2^1(即左移1位)后,结果被四舍五入到最接近的整数值。
dynamic_fixed_point-i16:
- 格式:Q15.1
- 计算公式:
- 数值范围:从 -32768 到 +32767,小数位数为1位。
- 具体转换公式:对于一个浮点数值 x,其定点数表示为 Q15.1,格式的定点数 Qx, 可以计算为: Qx=round(x*2^1)
- 在这种情况下,同样是乘以 2^1(即左移1位)后,结果被四舍五入到最接近的整数值。
注意事项:
- 这些公式中的 x是原始的浮点数值。
- 乘以 2^1实际上是左移1位,这是因为在定点数表示中,小数部分是通过固定点左移来实现的。
- 四舍五入确保了在浮点数转换为定点数时,尽可能地保留原始浮点数的数值精度。