公式介绍
本人初入模型量化的坑,对量化的一些过程还不是很理解,于是做了一些可视化的小实验,来帮助更好地理解公式。
下面的公式来自于论文《LEARNED STEP SIZE QUANTIZATION》(ICLR, 2020) 和《LSQ+: Improving low-bit quantization through learnable offsets and better initialization》(CVPR,2020):
上面的公式算是比较经典的量化公式了,中规中矩的公式。
公式 (1) 采用的即是均匀量化方法,
c
l
i
p
(
a
,
n
,
p
)
clip(a,n,p)
clip(a,n,p) 会将数据 a “钳制”到 [n,p] 范围内,
r
o
u
n
d
(
a
)
round(a)
round(a)即对数据a进行四舍五入操作。
z
z
z 称作量化零点,可以理解为一个位移量。
s
s
s 称作量化尺度 (scale),可以理解为一个缩放因子。“
x
−
z
s
\frac{x-z}{s}
sx−z” 就是在做变换 (规范化,利于离散化)。公式 (1) 称作量化过程,得到的
x
ˉ
\bar{x}
xˉ 称作量化结果。需要注意的是
x
ˉ
\bar{x}
xˉ 此时为整数形式。
公式 (2) 很明显就是在做一个缩放、位移操作,称为反量化过程,得到的
x
^
\hat{x}
x^ 称作“反量化结果”。需要注意的是
x
^
\hat{x}
x^ 此时为小数形式。
公式 (1) (2) 统一起来即完成了一个离散化过程,将原来的数据离散到有限的值内。若是在硬件部署模型的话,只需要储存整数形式的
x
ˉ
\bar{x}
xˉ 、FP32的
s
s
s 、INT16的
z
z
z 即可,而前向推理时再通过公式 (2)恢复出高精度值。
需要注意的是,本文指的3-bit量化是有
2
3
=
8
2^3=8
23=8 个量化电平 (Quantization level) ,即有8个有限的离散表征点:-4、-3、-2、-1、0、1、2、3,并不是对称的。实际模型量化由于考虑到算子溢出问题,会是对称的,也就是只有7个量化电平,这里不做赘述。
量化零点 z z z 在离散化过程中的作用
可以发现,量化零点使得分布偏移。其实我们最想要的情况是如图 (3) (5)那样的变化过程,使原数据的大部分都能被充分量化,换句话说就是尽量让clip所钳制的值更合理些。
- Z增大(或者为正数)时,量化后的分布会左移。而反量化后的分布会右移动,移回原数据分布所在的中心。
- Z减小(或者为负数)时,量化后的分布会右移。而反量化后的分布会左移动,移回原数据分布所在的中心。
量化尺度 s s s 在离散化过程中的作用
可以发现,s确实起到缩放作用。量化前通过s变换成新形态,反量化时再通过s变换回来。
- 当s增大(或者大于1)时,数据向中心的量化电平富集,反量化后最小刻度增大。
- 当s减小(或者小于1)时,数据向靠近边缘的量化电平富集,反量化后最小刻度减小。
量化尺度 s s s 和量化零点 z z z 联合作用
可以看到图 (10) 最后达到了一个比较良好的效果,即在保证大部分数据充分量化情况下,也合理地丢掉了小部分的离群点。这样的量化是我们一般想达到的效果。