【量化学习1】均匀放射量化Uniform affine quantization-CSDN博客

本文链接：https://blog.csdn.net/Ashley_huo/article/details/135696842

均匀放射量化

Uniform affine quantization

量化基本概念

将浮点数运算转化成int，方便硬件计算。
仿射映射量化解决待量化数据和数据量化表示范围不匹配问题
假设输入为：dp = [-4.5,6.3,0,-7.9,9.1]，将此数据进行量化

量化步骤

处理原始数据dp
找到原数据的最小值 $d_{min}$ 和最大值 $d_{max}$
确定要量化的范围
如数据宽度 $n = 2$ ，表示量化后的数据用2位表示，数据范围为 $q_{min}$ 到 $q_{max}$
确定量化参数：
$s$ 比例因子，浮点数，并指定量化器的步长
$z$ 零点，偏移量,确保对实零进行无误差量化,可确保像zero padding或ReLU这样的常规操作不会引起量化错误
进行量化操作
其中， $ro u n d$ 表示取整操作， $c l i p$ 表示截断操作，具体稍后看例子。
$X_{int}=clip(round(\frac{X}{s})+z)$
反量化操作
$X\approx \widetilde{X}=s(X_{int}-z)$
验证误差，计算量化前后的误差值。
量化范围的极限 $q_{min}=-sz$ ， $q_{max}=s(2^b-1-z)$

示例代码

def Calc_sz(dp,n):
    # 确定数据的范围，找max和min值
    d_min = min(y)
    d_max = max(y)
    # 量化表示的最大最小值
    # q_min = -math.pow(2, n - 1) + 1 #有符号的计算
    # q_max = math.pow(2, n - 1)
    q_min = 0 #无符号的计算
    q_max = math.pow(2, n)-1
    # 求比例因子/规模因子
    s = (d_max - d_min) / (q_max - q_min)
    # 求偏移量，保证零点的量化没有误差，
    # 可确保像zero padding或ReLU这样的常规操作不会引起量化错误
    z = q_min - (d_min / s)
    return s,z

#量化操作
def Quant_FpToInt(dp,n,s,z):
    # 量化表示的最大最小值
    q_min = -math.pow(2, n - 1) + 1
    q_max = math.pow(2, n - 1)
    qp = []
    for d in dp:
        q = d/s+z #量化公式
        # 用q_min, q_max进行截断，可能导致截断误差
        q = np.round(np.clip(q, q_min, q_max)).astype(int)
        qp.append(q)
    return qp

#反量化操作
def deQuant_IntToFp(qp,n,s,z):
    dp = []
    for q in qp:
        d = s * (q - z)
        dp.append(d)
    return dp

运行结果与分析

当n = 8时：

量化前y1=[-4.5, 6.3, 0, -7.9, 9.1]
量化后y2=[51, 213, 118, 0, 255]
反量化y3=[-4.5, 6.3, -0.03333333333333333, -7.8999999999999995, 9.1]
误差err=0.03333333333333333
数据范围：-7.8999999999999995，9.1

在这里插入图片描述