【论文阅读笔记】PACT：PArameterized Clipping Activation for Quantized Neural Networks_pact: parameterized clipping activation for quanti-CSDN博客

本文链接：https://blog.csdn.net/qq_19784349/article/details/82979899

全文概括

本文目的是将 activation 和 weight 一起量化，其结果能量化 activation 和 weight 到 4-bit 大小，且准确度能和 full precision 媲美(在一系列流行的模型和数据集上)。

该方法是提出一个新的激活函数，即PACT(PArameterized Clipping Activation)，其作用在训练阶段，即该方案是从头开始训练的。

提出该激活函数的背景是作者发现：“在运用权重量化方案来量化 activation 时，传统的RELU的量化结果和全精度结果相差较大，在分类任务上”。作者发现是量化时，activation的量化误差能很大(相较于 weight 基本在 $(0, 1)$ ，activation的值是无限大的，这是RELU的结果)，所以提出 截断式RELU 的激活函数。该截断的上界，即文中的 $\alpha$ 是可学习的参数，这保证了每层都能有不一样的量化范围。

新添的参数 $\alpha$ ，在训练时使用 $L_2$ 正则化，使其快速收敛的同时，保持一个较小的值，以限制量化时产生的量化误差。

结果展示：

对于极端小的bit( $\leq 2-bits$ )，PACT表现得比已提出其他量化方法要好；
PACT的 4-bit 量化结果表现得和原 floating point版本差不多。PACT的 4-bit 量化结果表现得和原 floating point版本差不多。

该方法，对大的网络，如ResNet-50效果很好，和baseline差不多。

该方法是从头开始训练的，暂时不知道其是不是在训练网络的同时，使用量化方案，如果不是同时使用量化方案的话，是不是可以使用 pre-trained model ，然后使用PACT进行“微调”，再进行量化。

激活量化的挑战

量化传统的 activation，不像量化 weight 一样，可以通过学习去补偿，其量化的误差结果只能加重 weight 的补偿学习。

传统的 RELU 是无界的，这代表着其结果能有很大的范围。通过截断式RELU，给 activation 添加一个上界，可以部分环节量化误差的损失，但其结果仍显著不如全精度版本。
在这里插入图片描述

PACT

PACT工作流程

PACT激活函数： $y=PACT(X)=0.5(|X|-|X-\alpha|+\alpha)=\begin{cases} 0, & x \in (-\infty,0) \\ x, & x \in [0, \alpha) \\ \alpha, &x \in [\alpha, +\infty) \end{cases}$

该激活函数的输出，量化到 k-bits上的结果为： $y_q=round(y*\frac{2^k-1}\alpha)* \frac {\alpha}{2^k-1}$ $\frac {\alpha}{2^k-1}$ 是 step-size 。

反向传播学习 $\alpha$ 的过程： $\frac{\partial y_q}{\partial \alpha}=\frac{\partial y_q}{\partial y}=\begin{cases} 0, x \in (-\infty , \alpha) \\ 1, x \in [\alpha , +\infty) \end{cases}$ 其中，梯度 $\frac{\partial y_q}{\partial \alpha}$ 通过"straight-through estimator(STE)"随机离散化神经元来进行梯度计算和反向传播工作，作者将 $\frac{\partial y_q}{\partial \alpha}$ 估计为 $1$ 。