【论文阅读笔记】Incremental Network Quantizatio：Towards Lossless CNNs with Low-Precision Weights

本文链接：https://blog.csdn.net/qq_19784349/article/details/82932314

全文概括

先前的量化方法（同时量化所有的weight）都太粗暴了，这导致了量化损失严重，作者提出一种分组量化-分组re-train的方法来拟补量化带来的损失。

INQ方法步骤：

将为量化的参数分成待量化/待re-train组(用超参数定义每次量化的百分比，百分比会自动在参数中找到一个临界点，绝对值大于这个临界点的分为待量化组，因为作者认为大值比小值重要，让小的re-train。这个观点，在选择fixed-point的IL和FL划分时，也是这样认为的。)
量化待量化组
retrain 待retrain组

INQ目前只研究了量化权重的模式（量化activation待研究中，目前在VGG16成功展示）

其结果表示：量化效果好（包括二元/三元量化），accuracy不降反升（只降一点点）；其权重量化限制为 2ⁿ，让乘法操作可变作移位操作(注意，本论文的该方法，只是将权重进行量化，对activation并未操作，仍是floating point。所以这种移位操作，只是想象的，并未实际运用)。

这种方法使量化不会产生大的损失，但加剧了实验者对超参调整经验的要求，因为每次量化部分参数都要调整到最好。

前言

INQ旨在于将任意以训练好的高精度CNN模型量化成参数限制为2ⁿ或0的低精度版本。INQ方法可以分为三个相互依赖的部分：weight partition，group-wise quantization，re-training.
weight parition将CNN模型的每层划分成不想交的两组，(group-wise)一组进行量化（通过可变长度编码方法），(re-train)另一组进行re-train来补偿量化损失。

具体来说，在5-bit量化中 （可变长度编码：1位用于表示零值，其余4位最多表示16位不同的值，用于表示2的幂）【个人认为，这个零位专门标记出来，是为了方便判断 0和2ⁿ，即2ⁿ带来的移位操作计算优势】

结果展示：

对于AlexNet，VGG-16，GoogleNeet 和 ResNets，用5-bit量化，可以提高32-bit全精度的精确度；
INQ让每次re-train更容易收敛，每次预训练不到8个epochs就能得到5-bit的无损模型；
以ResNet-18为例，用4-bit，3-bit 和 2-bit的三元权重都能改善或者非常接近32-bit 浮点数的基准线

Incremental Network Quantization

Weight Quantization with Variable-Lnegth Encoding

量化后的权重 $\hat{W_l}$ 表示第 $l$ 层的权重，其取值限制为 $P_l = \{\pm2^{n_1}，...，\pm2^{n_2}，0\}$ 。其中， $P_l$ 表示第 $l$ 层的参数， $n_1，n_2$ 是两个整数，并定义 $n_2<n_1$ 。
所以，量化的关键是如何如何找到 $n_1$ 和 $n_2$ （因为bit-width是我们定义的超参数，且有 $n_1-n_2+1)*2=2^{b-1}$ ，其中，乘2是表示正负号，b-1是因为有一个bit去标记零值。所以，其实我们只要找到 $n_1$ 或者 $n_2$ 就行，另一个可以计算得出）。
我们从以下公式得到 $n_1$ ： $n_1=floor(log_2\frac{4s}3)\\s=max(abs(W_l))$
我们的 $b - 1$ 个bit得到的数字，是作为幂的指数部分存在的。

然后就近选择量化的结果。

Incremental Quantization Strategy

在这里插入图片描述
不断增大量化的比例，量化比例中未量化的参数(从大到小量化)，re-train不在比例中的参数。
在量化时，用一个mask数组 T_l来标记哪些是还没被量化的，即re-train时需要更新的部分(待量化部分， $T_l(i,j)=0$ ；待re-trained部分， $T_l(i,j)=1$ )。