rknn支持的量化方式

以下作为笔记,部分来自GPT4o

1、非对称量化

asymmetric_quantized-u8

其中 Qx代表量化后的数,f 代表浮点数,s表示缩放系数(float32 类型), z 代表实数为 0 时对应的量化值(int32 类型),最后把 quant 饱和到[range_min, range_max],目前只支持 uint8 类型,所以 range_max 等于 255,range_min 等于 0 对应的反量化公式如下

公式:Qx​=clamp(f/s +z , 0, 2​55)

2、动态定点量化

动态定点数的计算公式通常表示为Q格式,其中Qm.n表示具有m位整数部分和n位小数部分的定点数格式。对于 dynamic_fixed_point-i8dynamic_fixed_point-i16,其计算公式可以如下表示:

dynamic_fixed_point-i8:

  • 格式:Q7.1
  • 计算公式
    • 数值范围:从 -128 到 +127,小数位数为1位。
    • 具体转换公式:对于一个浮点数值 x,其定点数表示为 Q7.1格式的定点数 Qx,可以计算为: Qx​=round(x*2^1)
    • 其中, round 是四舍五入函数。在这种情况下,小数部分只有一位,因此乘以 2^1(即左移1位)后,结果被四舍五入到最接近的整数值。

dynamic_fixed_point-i16:

  • 格式:Q15.1
  • 计算公式
    • 数值范围:从 -32768 到 +32767,小数位数为1位。
    • 具体转换公式:对于一个浮点数值 x,其定点数表示为 Q15.1,格式的定点数 Qx,​ 可以计算为: Qx​=round(x*2^1)
    • 在这种情况下,同样是乘以 2^1(即左移1位)后,结果被四舍五入到最接近的整数值。

注意事项:

  • 这些公式中的 x是原始的浮点数值。
  • 乘以 2^1实际上是左移1位,这是因为在定点数表示中,小数部分是通过固定点左移来实现的。
  • 四舍五入确保了在浮点数转换为定点数时,尽可能地保留原始浮点数的数值精度。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值