模型压缩——量化

VIP文章入坑&填坑

已于 2022-12-09 15:49:05 修改

阅读量1.6k

点赞数 1

文章标签：深度学习

于 2022-11-14 10:51:09 首次发布

本文链接：https://blog.csdn.net/weixin_39994739/article/details/125439934

版权

模型压缩——量化

量化

量化

int
int8取值范围是-128 - 127（符号位+数值位=8)
Int16 意思是16位整数(16bit integer)，相当于short 占2个字节 -32768 ~ 32767
Int32 意思是32位整数(32bit integer), 相当于 int 占4个字节 -2147483648 ~ 2147483647
Int64 意思是64位整数(64bit interger), 相当于 long long 占8个字节 -9223372036854775808 ~ 9223372036854775807
float
一个float单精度浮点数一般是4bytes（32bit）来表示，由三部分组成：符号位、指数部分（表示2的多少次方）和尾数部分（小数点前面是0，尾数部分只表示小数点后的数字）
双精度64位，单精度32位，半精度自然是16位
float32: 单精度浮点数float的这三部分所占的位宽分别为：1，8，23
float16: 半精度浮点数half的这三部分所占的位宽分别为：1，5，10
量化的作用：更小的模型尺寸、更低的功耗、更快的计算速度。下图是不同数据结构比较及执行基本运算时的计算消耗。
float32转为int时都是转为int8的原因是：float32的指数部分位宽为8，截断小数部分后就等于int8；虽然int16占用的字节比float32少，但使用int8就能够表示float32的整数部分，所以float32不转为int16。
定点：指的是小数点的位置是固定的，即小数位数是固定的数。
在量化的实现代码中要做溢出保护，加个clip

对称量化和非对称量化

浮点转到定点： $Q=round(\frac{R}{S})+Z$
定点转到浮点： $R = (Q - Z) * S$
$R$ 代表真实浮点值， $Q$ 代表量化后的定点值， $Z$ (Zero)表示0浮点值对应的量化定点值， $S$ (Scale)表示定点量化后可表示的最小刻度。
$S=\frac{R_{max}-R_{min}}{Q_{max}-Q_{min}}$
$R_{max}/R_{min}$ 代表最大/最小的浮点值， $Q_{max}/Q_{min}$ 代表最大/最小的定点值。
$Z=Q_{max}-\frac{R_{max}}{S}$
比如进行int8的量化，数据范围是[-128,127]，浮点的最大值最小值分别是 $X_{max}$ 和 $X_{min}$ ， $X_q$ 表示量化后的数据， $X_f$ 表示浮点数据。
$X_q=\frac{X_f}{S}+Z$
$S=\frac{X_{max}-X_{min}}{127-(-128)}$
$Z=0-round(\frac{X_{min}}{S})$ or $Z=255-round(\frac{X_{max}}{S})$
round代表四舍五入
量化分为对称量化和非对称量化，上面的是非对称量化，如果是对称量化，则是将原浮点数的范围由 $X_{min}, X_{max}]$ 扩充为 $X_{max}, X_{max}]$ ，这里假定 $∣ X m a x ∣ > ∣ X m i n ∣$ 。
对称量化图示：
在这里插入图片描述
非对称量化图示：

$S$ 除了上述的公式为还可以采用以下公式：
对称量化： $S=\frac{2^{n-1}-1}{max(|x|)}$
非对称量化： $S=\frac{2^{n-1}-1}{max(x)-min(x)}$
$x$ 代表浮点数, $n$ 代表量化后的位宽，float32量化为int8则n为8。

矩阵量化

假设 $R_1$ 和 $R_2$ 是浮点实数上的两个 $N\times N$ 的矩阵， $R_3$ 是 $R_1$ 和 $R_2$ 相乘后的矩阵：
$R_3^{i,k}=\sum_{j=1}^NR_1^{i,j}R_2^{j,k}$
假设 $S_1$ 和 $Z_1$ 是 $R_1$ 矩阵对应的 scale 和 zero point， $S_2$ 、 $Z_2$ 、 $S_3$ 、 $Z_3$ 同理，那么通过上式可以推出：
$S_3(Q_3^{i,k}-Z_3)=\sum_{j=1}^NS_1(Q_1^{i,j}-Z_2)S_2(Q_2^{j,k}-Z_2)$
=> $Q_3^{i,k}=\frac{S_1S_2}{S_3}\sum_{j=1}^N(Q_1^{i,j}-Z_2)(Q_2^{j,k}-Z_2)+Z_3$
除了 $\frac{S_1S_2}{S_3}$ 外都是定点运算，此时设 $M=\frac{S_1S_2}{S_3}$ , $M$ 在 $(0, 1)$ 之间(这是通过大量实验统计出来的)，因此可以表示成 $M=2^{-n}M_0$ ，其中 $M_0$ 是一个定点实数。因此，如果存在 $M=2^{-n}M_0$ ，那我们就可以通过 $M_0$ 的 bit 位移操作实现 $2^{-n}M_0$ ，这样整个过程就都在定点上计算了(其实这是由误差的，用这种方法可以得到一个近似的结果)。

卷积网络的量化

在这里插入图片描述
卷积和全连接的本质就是矩阵运算。
假设网络为上图，则这个网络只有三个模块，现在需要把 conv、fc、relu 量化。
假设输入为 $x$ ，我们可以事先统计样本的最大值和最小值，然后计算出 $S_x$ (scale) 和 $Z_x$ (zero point)。
同样地，假设 conv、fc 的参数为 $w_1$ 、 $w_2$ ，以及 scale 和 zero point 为 $S_{w_1}$ 、 $Z_{w_1}$ 、 $S_{w_2}$ 、 $Z_{w_2}$ 。中间层的 feature map 为 $a_1$ 、 $a_2$ ，并且事先统计出它们的 scale 和 zero point 为 $S_{a_1}$ 、 $Z_{a_1}$ 、 $S_{a_2}$ 、 $Z_{a_2}$ 。
（不考虑bias）
$a_1^{i,k}=\sum_{j=1}^Nx^{i,j}w_1^{j,k}$ => $Q_{a_1}^{i,k}=M\sum_{j=1}^N(Q_x^{i,j}-Z_x)(Q_{w_1}^{j,k}-Z_{w_1})+Z_{a_1}$ ( $M=\frac{S_{w_1}S_{x}}{S_{a_1}}$ )
得到 conv 的输出后，我们不用反量化回 $a_1$ ，直接用 $Q_{a_1}$ 继续后面的计算即可。
量化后的ReLU的计算公式为 $Q_{a_2}=max(Q_{a_1},Z_{a_1})$
量化后的fc层计算公式为：
$Q_y^{i,k}=M\sum_{j=1}^N(Q_{a_2}^{i,j}-Z_{a_2})(Q_{w_2}^{j,k}-Z_{w_2})+Z_y$
然后通过公式 $y=S_y(Q_y-Z_y)$ 把结果反量化回去，就可以得到近似原来全精度模型的输出了。
可以看到，上面整个流程都是用定点运算实现的。我们在得到全精度的模型后，可以事先统计出 weight 以及中间各个 feature map 的 min、max，并以此计算出 scale 和 zero point，然后把 weight 量化成 int8/int16 型的整数后，整个网络便完成了量化，然后就可以依据上面的流程做量化推理了。
Conv输出的Scale和zero point需要用一些样本去跑一遍，然后统计

后训练量化(post training quantization)

后训练量化指的是，对预训练后的网络选择合适的量化操作和校准操作，以实现量化损失的最小化，该过程不需要训练，通常不直接更新权重原始数值而是选用合适的量化参数
卷积层的量化(带bias)：
conv: $a=\sum_i^Nw_ix_i+b$
量化后的Conv: $S_a(Q_a-Z_a)=\sum_i^NS_w(Q_w-Z_w)S_x(Q_x-Z_x)+S_b(Q_b-Z_b)$
=> $Q_a=\frac{S_wS_x}{S_a}\sum_i^N(Q_w-Z_w)(Q_x-Z_x)+\frac{S_b}{S_a}(Q_b-Z_b)+Z_a$