重训练量化·可微量化参数

最新推荐文章于 2024-03-13 19:49:28 发布

hey-yahei

最新推荐文章于 2024-03-13 19:49:28 发布

阅读量696

点赞数

文章标签：深度学习人工智能机器学习模型压缩量化

本文链接：https://blog.csdn.net/qq_20759449/article/details/108750853

版权

本文探讨了深度学习模型压缩中的可微量化参数技术，包括PACT、QIL和LSQ+。这些方法通过训练量化参数来优化模型性能，例如PACT通过训练激活的截断范围，QIL同时训练权重和输入数据的量化参数，而LSQ+则引入了偏移和更好的初始化策略，尤其适用于Swish等激活函数的网络。实验结果显示，这些方法在降低模型精度的同时保持了较好的性能。

摘要由CSDN通过智能技术生成

原文链接：https://www.yuque.com/yahei/hey-yahei/quantization-retrain_differentiable
欢迎引用&转载，但烦请注明出处~

在传统的QAT中，训练的只有权重，而量化参数是根据权重的分布所确定的。有研究者就想，为什么不把量化参数也作为训练对象呢？既然量化参数是可训练的，那么它能被求导，也就是可微的，所以我们可以称这类方法为“可微量化参数”。

PACT

论文：《PACT: Parameterized Clipping Activation for Quantized Neural Networks (ICLR2018)》
PArameterized Clipping acTivation(PACT)——这字母缩写取的还真是奇葩……

PACT讨论了ReLU激活下，如何直接训练输入数据的截断范围 $\alpha$
$\alpha) = \begin{cases} 0 & x \in (- \infty, 0) \\ x & x \in [0, \alpha) \\ \alpha & x \in [\alpha, +\infty) \end{cases}$
$\bar{y} = Round(y \cdot \frac{2^N - 1}{\alpha})$
$\tilde{y} = \frac{\alpha}{2^N-1} \bar{y}$
跟ReLU6有点像，ReLU6用的是一个固定的 $\alpha=6$ ，而PACT让 $\alpha$ 作为一个可训练参数，直接用目标任务的loss来训练。思路比较简单，求导也不复杂
$\frac{\partial \tilde{y}}{\partial \alpha} = \frac{\partial \tilde{y}}{\partial y} \frac{\partial y}{\partial \alpha} \mathop{\approx} \limits_{STE} \frac{\partial y}{\partial \alpha} = \begin{cases} 0 & x \in (-\infty, \alpha) \\ 1 & x \in [\alpha, \infty) \end{cases}$
众所周知，量化时动态范围越小，那么分辨率就越高。为了避免截断范围 $\alpha$ 太大，论文里为 $\alpha$ 引入了L2正则化。并建议，惩罚参数 $\lambda_\alpha$ 跟权重的惩罚参数 $\lambda$ 保持一致，并且随着量化位宽的增加而减小——直观理解，量化位宽越大，则可以保证有更大的分辨率，那么与之对立的动态范围也应该有更大的增长空间。

QIL

论文：《Learning to Quantize Deep Networks by Optimizing Quantization Intervals with Task Loss (CVPR2019)》
Quantization Interval Learning(QIL)

在PACT的基础上，QIL除了训练输入数据的量化参数外，还训练权重的量化参数，并且使用了带offset的量化，实际操作中用一个区间中心 $c_{\Delta}$ 和区间半宽 $d_\Delta$ 来表示（ $\Delta$ 可以是权重 $W$ ，也可以是输入数据 $X$ ）。
![image.png](https://img-blog.csdnimg.cn/img_convert/b6093a049a8fd7b69fdb48b8a66765a6.png#align=left&display=inline&height=208&margin=[object Object]&name=image.png&originHeight=284&originWidth=703&size=56409&status=done&style=none&width=515)
$$\begin{aligned}

\hat{w} &= \begin{cases}
0 & |w| < c_W - d_W \
sign(w) \cdot (\alpha_W |w| + \beta_W)^\gamma & c_W - d_W \leq |w| \leq c_W + d_W \
sign(w) & |w| > c_W + d_W
\end{cases}
\
\hat{x} &= \begin{cases}
0 & x < c_X - d_X \
\alpha_X x + \beta_X & c_X - d_X \leq x \leq c_X + d_X \
1 & c_X + d_X
\end{cases}
\end{aligned}
\bar{\Delta} = Round(\hat{\Delta} \cdot q_D)
$其中，区$