以下作为笔记,部分来自GPT4o
1、非对称量化
asymmetric_quantized-u8
其中 Qx代表量化后的数,f 代表浮点数,s表示缩放系数(float32 类型), z 代表实数为 0 时对应的量化值(int32 类型),最后把 quant 饱和到[range_min, range_max],目前只支持 uint8 类型,所以 range_max 等于 255,range_min 等于 0 对应的反量化公式如下
公式:Qx=clamp(f/s +z , 0, 255)
2、动态定点量化
动态定点数的计算公式通常表示为Q格式,其中Qm.n表示具有m位整数部分和n位小数部分的定点数格式。对于 dynamic_fixed_point-i8 和 dynamic_fixed_point-i16,其计算公式可以如下表示:
dynamic_fixed_point-i8:
- 格式:Q7.1
- 计算公式:
- 数值范围:从 -128 到 +127,小数位数为1位。
- 具体转换公式:对于一个浮点数值 x,其定点数表示为 Q7.1格式的定点数 Qx,可以计算为: Qx=round(x*2^1)
- 其中, round 是四舍五入函数。在这种情况下,小数部分只有一位&#

最低0.47元/天 解锁文章
3468

被折叠的 条评论
为什么被折叠?



