量化基础知识

秃头_

已于 2023-04-19 11:27:38 修改

阅读量1.5k

点赞数 2

文章标签：人工智能

于 2023-04-18 16:57:17 首次发布

本文链接：https://blog.csdn.net/2301_77411102/article/details/130170169

版权

## 量化基础知识

一、概述

量化是指将神经网络前向推理过程中浮点数运算量化为整数运算，以达到计算加速的目的。
通常是指将float32转化为int8进行运算，这样做会有更小的模型体积，可将模型大小减少 4 倍；更快的计算速度，与float32计算相比，int8计算速度通常快 2 到 4 倍。

二、量化方法

非对称量化
非对称量化是通过收缩因子(scale) 和零点(zero point) 将实数 $R_{min}，R_{max}]$ 分别映射到 [ $0, 2^{b-1}-1$ ]的范围内，b 代表量化数值的bit数。以int8量化为例， $b = 8$ 。
如下图所示，将实数 $R_{min}，R_{max}]$ 量化到[0,255]范围内。

假设输入的浮点数范围为 $R_{min}, R_{max})$ ，对8bits量化来说，scale和零点z的计算公式如下：

$\frac{R_{max}−R_{min}}{(2^{b}-1)} = \frac{R_{max}−R_{min}}{255}$

$round(-\frac{R_{min}}{scale})$ 或
$round(255-\frac{R_{max}}{scale})$

得到了scale和零点z后，对于任意的输入r，量化值q为：
$\frac{r}{scale}+z$
由定点到浮点反量化公式为：
$r = (q - z) * sc a l e$

- 对称量化

对称量化：通过一个收缩因子(scale)将实数 $R_{min}，R_{max}]$ 量化到[ $2^{b-1}, 2^{b-1}-1$ ]的范围内。以int8量化为例， $b = 8$ 。
如下图所示，将实数 $R_{min}，R_{max}]$ 量化到[−128,127]范围内。与非对称量化相比，对称量化的zero_point = 0。
在这里插入图片描述
$=\frac{R_{max}−R_{min}}{(2^{b-1}-1) -(-2^{b-1})} =\frac{R_{max}−R_{min}}{255} )$

对于任意的输入r，量化值q为：
$\frac{r}{scale}$
由定点到浮点反量化公式为：
$r = q * sc a l e$

三、卷积计算过程

卷积运算中，主要是乘累加运算，通常格式是 $\sum_{input*weight} + bias$
假设input的定点值为 $Q_i$ ，weight为 $Q_w$ ，bias为 $Q_b$ ，output为 $Q_o$ 。scale和zero_point类似。

$Q_o-Z_o)*S_o =((Q_i-Z_i)*S_i)*((Q_w-Z_w)*S_w)+(Q_b-Z_b)*S_b$
其中S_b =S_i* S_w，若都采用对称量化，即Z_i，Z_b，Z_w，Z_o为0，
则上式变为：
$Q_o*S_o =(Q_i*S_i)*(Q_w*S_w)+Q_b*S_i*S_w$

$Q_o =\frac{S_i*S_w}{S_o}*(Q_i*Q_w+Q_b)$

因此提前算出 $\frac{S_i*S_w}{S_o}$ 即可

若input，output 采用非对称量化量化
$Q_o-Z_o)*S_o =((Q_i-Z_i)*S_i)*(Q_w*S_w)+Q_b*S_i*S_w$

$Q_o =\frac{S_i*S_w}{S_o}*((Q_i-Z_i)*Q_w+Q_b)+Z_o$

$Q_o =\frac{S_i*S_w}{S_o}*(Q_i*Q_w+Q_b-Z_i*Q_w)+Z_o$

因此提前算出 $\frac{S_i*S_w}{S_o}$ ， $Z_i$ ， $Z_o$ 即可

若input，output ，weight采用非对称量化量化
$Q_o-Z_o)*S_o =((Q_i-Z_i)*S_i)*((Q_w-Z_w)*S_w)+Q_b*S_i*S_w$

$Q_o =\frac{S_i*S_w}{S_o}*((Q_i-Z_i)*(Q_w-Z_w)+Q_b)+Z_o$

$Q_o =\frac{S_i*S_w}{S_o}*(Q_i*(Q_w-Z_w)+Q_b-Z_i*(Q_w-Z_w))+Z_o$

因此提前算出 $\frac{S_i*S_w}{S_o}$ ， $Z_i$ ， $Z_o$ , $Z_w$ 即可

秃头_

关注

2
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
量化基础知识

量化是指将神经网络前向推理过程中浮点数运算量化为整数运算，以达到计算加速的目的。通常是指将float32转化为int8进行运算，这样做会有更小的模型体积，可将模型大小减少 4 倍；更快的计算速度，与float32计算相比，int8计算速度通常快 2 到 4 倍。
复制链接

扫一扫