模拟量化面试20问回答

本文详细探讨了量化技术,包括对称/非对称均匀量化、有/无符号处理,以及量化误差、PTQ和QAT的区别。重点讲解了conv2d中的量化策略,如fakequant、multiplier和shift的计算,以及混合精度和特殊操作处理。讨论了量化误差的来源及常见解决方案,如权重范围限制以减少溢出风险。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

原文链接
参考链接

量化的基本公式

对称均匀量化(symmetric uniform quantization)

对称量化将零点z限制为真实的0。注意对称均匀量化并不是关于零点对称。它还分为有符号和无符号。

signed量化公式

在这里插入图片描述

signed量化范围

8bit量化范围[-128, 127]

signed缩放系数

在这里插入图片描述### signed零点计算方法
Z = 0

unsigned 量化公式

在这里插入图片描述

unsigned量化范围

8bit的量化范围[0,255]

unsigned缩放系数计算方法

在这里插入图片描述### unsigned零点计算方法
Z = 0

反量化公式

在这里插入图片描述

非对称量化(Asymmetric uniform quantization)

即均匀仿射量化(uniform affine quantization)。

非对称量化公式

在这里插入图片描述

非堆成量化范围

[-128, 127] for signed
[0, 255] for unsigned

缩放系数

在这里插入图片描述

零点公式

Z = Qmax - round(rmax/S)

反量化公式

在这里插入图片描述

2、量化的误差来源有哪些

3、既然有误差,那为何某些业务对误差不敏感,有的又非常敏感

4、量化信息是插入tensor还是op,或者是两者都要

5、ptq量化的基本流程

6、ptq和qat的简单区别

7、常说的per tensor和per channel,对于conv2d的weight来说具体有什么区别

8、量化里常说的fake quant大概是在干什么

9、对于qat来说,fake quant在训练和推理时有什么区别

10、对称非对称,有无符号等量化选择,对于conv2d的3个输入来说一般各自采用哪种组合

11、requant的基本计算逻辑和作用

12、混合精度的基本计算逻辑

13、量化中有哪些op通常需要特殊处理

14、对于conv2d来说,multiplier,shift如何推理出来的

15、对于conv2d来说,采用multiplier,shift计算时,对bias的scale有特殊要求吗

16、对称量化时我们统计出来的浮点范围,为何要限制min≤0,max≥0

17、常见的阈值搜索方法

8bit量化带符号时,q_min选-128和-127的有区别吗

论文
来源
这里有个 Trick,即对于权重是量化到[−127,127],这是为了累加的时候减少溢出的风险。

因为 8bit 的取值区间是[-2^7, 2^7 -1],两个 8bit 相乘之后取值区间是 (-214,214],累加两次就到了(-215,215],所以最多只能累加两次而且第二次也有溢出风险,比如相邻两次乘法结果都恰好是214会超过215-1(int16 正数可表示的最大值)。

所以把量化之后的权值限制在(-127,127)之间,那么一次乘法运算得到结果永远会小于-128*-128 = 2^14。

19、为什么有的模型会出现中间量化误差大,后续量化误差又减少的情况

20、余弦度量在衡量量化误差上有什么优缺点

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值