note_三元量化中的Weight Grouping

@sir10086

已于 2023-10-09 11:25:49 修改

阅读量157

点赞数

分类专栏：联邦学习论文文章标签：学习机器学习人工智能

于 2023-09-20 09:40:02 首次发布

本文链接：https://blog.csdn.net/wanghuiyu001/article/details/132754203

版权

联邦学习论文专栏收录该内容

11 篇文章 0 订阅

订阅专栏

读在前面：
三元量化中的 group 方法是指，通过逐渐增加全精度权重量化的比例来减小量化带来的误差。量化误差可以表达为：
$\begin{gathered} \|\mathbf{y}-\mathbf{x}^{\top}\mathbf{w}\|_{2}^{2} \leq\|\mathbf{y}-\mathbf{x}^{\top}(r\mathbf{w}+(1-r)\mathbb{Q}(\mathbf{w}))\|_{2}^{2} \\ \leq\|\mathbf{y}-\mathbf{x}^{\top}\mathbb{Q}(\mathbf{w})\|_{2}^{2}, \end{gathered}$ 其中， $r$ 控制着量化的比例。

本博客中文献笔记总结：

文献索引	量化精度	缩放因子求解	量化损失函数定义	增加精度方式	适用算法
一	多bit（ $2$ 的幂次）	\	$E(\mathbf{W}_l)=L(\mathbf{W}_l)+\lambda R(\mathbf{W}_l)$	重训练	CNN(all)
二	2/3 bit	$\alpha_{l}=mean(W_{l})+\beta max(W_{l}),\\\beta=0.05$	$L(W_l)+a_1L_p(W_l,\widehat{W_l})+a_2E(W_l,\widehat{W_l})$	重写量化损失+重训练	DNN
三	\	\	\	重训练	all
四	多bit	最小二乘法求解	$E_{x\sim\mathcal{N}(0,1),x>\epsilon}[(Q_\epsilon(x)-x)^2], \text{利用稀疏度}\epsilon$ $\sum_{\{\alpha_i\},\{\hat{w}_i^T\}}\parallel y_i^T-Q_\epsilon(\alpha_i\hat{w}_i^TX)\parallel_2^2$	解耦量化“权重”和“激活”	DNN
五	3 bit	$\alpha^{*}=(\sum_{i\in I_{\Delta}}\vert\mathbf{W}_{i}\vert)/\vert I_{\Delta}\vert$	$\sum_{i}\underset{\alpha_{i},\hat{\mathbf{W}}^{(i)}}{\operatorname*{argmin}}\|\mathbf{W}^{(i)}-\alpha_{i}\hat{\mathbf{W}}^{(i)}\|_{F}^{2}$	分组解析分析	all
六	3 bit	向后传播动态得到	\	pixel-wise和row-wise两种分组方式	DNN(CNN)
七	3 bit	NP问题，贪心策略	$\underset{{\{x_i\},\{d_i\},\{y_i\}}}{\operatorname{minimize}}\parallel W-\sum_i^kd_ix_iy_i^T\parallel_F^2$	权重矩阵的不动点分解	all

下面是如下这篇综述中关于“Weight Grouping”部分引用文献的笔记：

作者综述笔记：Ternary Quantization: A Survey
原文链接：Ternary Quantization: A Survey

一、INCREMENTAL NETWORK QUANTIZATION: TOWARDS LOSSLESS CNNS WITH LOW-PRECISION WEIGHTS

Zhou A, Yao A, Guo Y, et al. Incremental network quantization: Towards lossless cnns with low-precision weights[J]. arXiv preprint arXiv:1702.03044, 2017.
ICLR 2017（此会虽无CCF等级，但是是人工智能顶会）

1. 动机和贡献

动机： 虽然 CNN 的量化已经取得了一些进步，但是依然面临着两个重要的问题：

CNN量化过程中不可避免的精度损失；
与全精度权重训练模型相比，量化后模型需要增加更多轮数使得模型收敛。

贡献： 本文提出一种 incremental network quantization（INQ）CNN量化框架，在没有对CNN结构做出任何限制性假设的前提下，可以有效地将已经预训练好的全精度CNN模型（例如：32bit）转化为低精度模型（权重值限制到 $2$ 的幂次或者是 $0$ ）。相比于其他一次性将全部权重都进行量化的技术，本文通过考虑不同网络权重的重要程度不同，对其进行分批次的量化，主要包括如下几个步骤：

weight partition：将全精度权重分为两个互不相交的 “组group”；
group-wise quantization：将一个组中的权重量化，另一个组保持不变；
re-training：固定已量化后的组中的值，重新训练模型，改变另一个组中的值。

注：本文中将权重量化为 $2$ 的幂次或者是 $0$ 的目的是：将全精度权重的浮点数乘法运算变成二进制移位运算，以达到降低计算复杂度的作用。

2. 算法表示

2.2 weight partition

对于第 $l$ 层， weight partition 可以定义为：
$\mathbf{A}_{l}^{(1)}\cup\mathbf{A}_{l}^{(2)}=\{\mathbf{W}_{l}(i,j)\},\mathrm{and}~\mathbf{A}_{l}^{(1)}\cap\mathbf{A}_{l}^{(2)}=\emptyset,$ 同时定义一个二元矩阵 $\mathbf{T}_l(i,j)$ 作为掩码，即：
$\left\{\begin{matrix} \mathbf{T}_l(i,j)=0 & \text{if}~\mathbf{W}_l(i,j)\in\mathbf{A}_l^{(1)}\\ \mathbf{T}_l(i,j)=1 & \text{if}~\mathbf{W}_l(i,j)\in\mathbf{A}_l^{(2)} \end{matrix}\right.$

对于分组策略，本文中提出了两种方案：

random partition：随机的将待分权重分成不相交的两个组；
pruning-inspired partition：给一个以层为单位的阈值，绝对值大于此阈值的权重更有可能被分到同一组进行量化。（原因是：本文认为绝对值大的权重要性更大）

2.2 group-wise quantization: 使用变长编码的权重量化

假设 CNN 模型的权重可以表示为 $\{{\mathbf{W}}_{l}:1\leq l\leq L\}$ ，其中 ${\mathbf{W}}_{l}$ 表示第 $l$ 层权重值集合， $L$ 表示总层数；量化后低精度模型权重表示为 $\widehat{\mathbf{w}}_{l}$ ，它的每一个元素取值都从集合 $\mathbf{P}_l$ 中选取：
$\mathbf{P}_l=\{\pm2^{n_1},\cdots,\pm2^{n_2},0\},$ 其中， $n_1\geq n_2$ 是两个整数。

INQ 的量化规则为：
$\widehat{\mathbf{W}}_l(i,j)=\begin{cases}\beta\text{sgn}(\mathbf{W}_l(i,j))&\text{if}~(\alpha+\beta)/2\leq\text{abs}(\mathbf{W}_l(i,j))<3\beta/2\\0&\text{otherwise},\end{cases}$ 其中， $\alpha,\beta$ 表示集合 $\mathbf{P}_l$ 中的相邻的两个元素。那么，如何得到集合 $\mathbf{P}_l$ 中的元素，即得到 $n_1,n_2$ 的值？首先，定义 $n_1$ 的取值为：
$n_1=\text{floor}(\log_2(4s/3)),$ 其中，
$s=\max(\operatorname{abs}(\mathbf{W}_{l})).$ 因此，当确定量化维数 $b$ 后，可以得到 $n_2$ 的值为：
$n_2=n_1+1-\frac{2^{(b-1)}}{2},$ 下图是关于上述量化过程的一个示意图：
量化示意图

2.3 re-training

根据上面描述，重训练需要优化的如下目标函数：
$\begin{array}{rl}\min\limits_{\mathbf{W}_l}&E(\mathbf{W}_l)=L(\mathbf{W}_l)+\lambda R(\mathbf{W}_l)\\\text{s.t.}&\mathbf{W}_l(i,j)\in\mathbf{P}_l,\text{if}~\mathbf{T}_l(i,j)=0,1\le l\le L,\end{array}$ 其中， $L(\mathbf{W}_l)$ 表示网络损失函数， $R(\mathbf{W}_l)$ 表示正则项。因此，可以得到如下重训练规则：
$\mathbf{W}_l(i,j)\leftarrow\mathbf{W}_l(i,j)-\gamma\frac{\partial E}{\partial(\mathbf{W}_l(i,j))}\mathbf{T}_l(i,j),$

综上，总算法流程图为：
在这里插入图片描述

二、Explicit Loss-Error-Aware Quantization for Low-Bit Deep Neural Networks

Zhou, Aojun, et al. “Explicit loss-error-aware quantization for low-bit deep neural networks.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
CVPR 2018 CCF-A

1. 动机和贡献

动机： 现有关于DNN的二元/三元压缩存在测试精度低的问题，可能原因包括：

通过最小化原始模型和量化后模型的差异或者输入与原始模型内积和输入与量化模型内积这两种方式之一来量化模型；
很多策略都是一次性全部量化模型。

贡献： 本文提出一种基于最小化损失函数的量化技术（ELQ）来解决上述问题：

首先，同时考虑了 “近似误差” 和 “损失扰动” 的影响；
然后，通过增强策略，逐步量化模型参数（仿照“一”中思想）。

2. 主要算法

2.1 预备知识

向量函数的Taylor公式：
带积分余项的泰勒公式

0阶：
$f(x)=f(x_0)+\left\langle\int_0^1\nabla f(x_0+\theta(x-x_0))\mathrm{d}\theta,x-x_0\right\rangle$
1阶：
$\begin{aligned} f(x)&=f(x_0)+\langle\nabla f(x_0),x-x_0\rangle \\ &+\left\langle\int_{0}^{1}\nabla^{2}f(x_{0}+\theta(x-x_{0}))(1-\theta)\mathrm{d}\theta(x-x_{0}),x-x_{0}\right\rangle \end{aligned}$
带Lagrange余项的泰勒公式

0阶：
$f(x)=f(x_0)+\langle\nabla f(\xi),x-x_0\rangle$
1阶：
$f(x)=f(x_0)+\langle\nabla f(x_0),x-x_0\rangle+\frac{1}{2}\left\langle\nabla^2f(\xi)(x-x_0),x-x_0\right\rangle$
带Peano余项的泰勒公式

0阶：
$f(x)=f(x_0)+o(1)$
1阶：
$f(x)=f(x_0)+\langle\nabla f(x_0),x-x_0\rangle+o(\|x-x_0\|)$
2阶：
$\begin{gathered}f(x)=f(x_0)+\langle\nabla f(x_0),x-x_0\rangle+\frac{1}{2}\big\langle\nabla^2f(x_0)(x-x_0),x-x_0\big\rangle\\+o(\|x-x_0\|^2)\end{gathered}$
其中， $\langle x,y\rangle$ 表示 $x$ 和 $y$ 的内积（i.e. 若 $x,y\in\mathbb{R}^d$ ，则 $\langle x,y\rangle=x^Ty$ ）； $\|x\|$ 表示 $x$ 的范数， $\|x\|=\sqrt{\langle x,x\rangle}$ 。

简单粗暴地推导Taylor公式的各种形式 - 知乎 (zhihu.com)

2.2 基本 ELQ

首先，定义本文中量化函数的形式为：
${Q_{l}}=\{\alpha_{l}c_{k}|{1}\leq k\leq K\}$ 其中， $L$ 表示量化中心的总个数； $\alpha_l$ 表示按层收缩因子； $c_k$ 表示一个正整数。例如，二元量化中， $K=2,c_k\in\{-1,+1\}$ ；三元量化中， $K=3,c_k\in\{-1,0,+1\}$ 。

然后，为了联合考虑“近似误差”和“损失扰动”的影响，ELQ算法中重新定义了优化问题，即：
$\begin{array}{ll}\min_{\widehat{W_l}}&L(W_l)+a_1L_p(W_l,\widehat{W_l})+a_2E(W_l,\widehat{W_l})\\\\\text{s.t.}&\widehat{W_l}\in\{\alpha_lc_k|1\le k\le K\},1\le l\le L\end{array}$ 其中， $L$ 表示全精度模型的损失函数； $L_p$ 表示全精度模型和量化模型损失的差异； $E$ 表示全精度模型和量化模型的近似差异； $a_1,a_2\in\mathbb{R}^+$ 表示两个正则化系数。特别的，定义函数 $L_p,E$ 如下：
$\begin{aligned} L_p(W_l,\widehat{W_l})&=|L(W_l)-L(\widehat{W_l})|\overset{(a)}{=}|\frac{\partial L}{\partial(W_{l})}|\delta,\\ E(W_l,\widehat{W_l})&=||W_{l}-\widehat{W_{l}}||^{2}. \end{aligned}$ 其中，等式 $\overset{(a)}{=}$ 成立是由于：对函数 $L_p$ 在 $W_l$ 处进行1阶Taylor展开，得到：
$\begin{aligned} L_{p}(W_{l},\widehat{W}_{l})& =|L(W_{l})-L(W_{l})-\frac{\partial L}{\partial(W_{l})}(\widehat{W_{l}}-W_{l})| \\ &=|\frac{\partial L}{\partial(W_{l})}(W_{l}-\widehat{W_{l}})| \\ &=|\frac{\partial L}{\partial(W_{l})}|\delta, \end{aligned}$ 其中， $\delta=|W_{l}-\widehat{W_{l}}|$ 。

为了简单起见，本文中假设一个线性关系 $\frac{\partial L}{\partial(W_{l})}\propto\delta$ 。因此，得到全精度模型的更新规则是：
$\begin{aligned}W_l^t=W_l^{t-1}-\gamma\frac{\partial L}{\partial(W_l^{t-1})}-\lambda sign(W_l^{t-1}-\widehat{W_l}^{t-1}),\end{aligned}$

最后，定义量化函数 $Q_l$ 中的收缩因子 $\alpha_l$ 为：
$\alpha_{l}=mean(W_{l})+\beta max(W_{l}),$ 其中， $\beta=0.05$ 表示超参，根据实验所得。那么可以定义二元/三元量化函数为：
$\begin{matrix} \widehat{W_l}=\begin{cases}\alpha_l&\text{if}~W_l\geq0\\-\alpha_l&\text{otherwise},\end{cases} & \widehat{W_l}=\begin{cases}\alpha_l&\text{if}~W_l>0.5\alpha_l\\-\alpha_l&\text{if}~W_l<-0.5\alpha_l\\0&\text{otherwise}.\end{cases} \end{matrix}$
注：本文没有介绍阈值 $\Delta$ 的介绍，只是定义 $\Delta=0$ 或者 $\Delta=\pm0.5\alpha_l$ 。

2.3 ELQ和增量策略的结合

仿照 “一” 中的思想，本文采取逐步量化的策略，即分为 “模型分类、模型量化、重训练” 三个步骤。那么全精度模型的更新规则修改为：
$W_l^t=W_l^{t-1}-\gamma\frac{\partial L}{\partial(W_l^{t-1})}\odot T_l-\lambda sign(W_l^{t-1}-\widehat{W_l}^{t-1})\odot T_l$ 其中，矩阵 $T_l$ 定义为：
$\begin{matrix} T_l=\begin{cases}0&\text{if }W_l\odot T_l\in W_a,\\1&\text{if }W_l\odot T_l\in W_b,\end{cases} & W_a\cup W_b=W_l~\mathrm{and}~W_a\cap W_b=\emptyset. \end{matrix}$

与 “一” 中的不同点在于 “模型量化” 上。其核心思想是：当权重的训练越靠近量化权重中心时（例如对于三元量化，有3个量化权重中心， $-\alpha,0,+\alpha$ ），将更加有利于重训练过程；因此，本文将远离量化权重中心的值量化为中心点，然后进行重训练。这会带来一个问题：如何判断哪些值时远离量化权重中心的呢？本文定义了interval bound factor $\{\sigma_{n}\in[0,1]|1\leq n\leq N\}$ 来进行确定。另外，本文根据经验对三元量化选择 $\{\sigma_{1}=0.5,\sigma_{2}=0.4,\sigma_{3}=0.3,\sigma_{4}=0.2,\sigma_5=0.15,\sigma_6=0.1,\sigma_7=0.05,\sigma_8=0\}$ ，文中给出一个示例：
在这里插入图片描述

综上，得出ELQ算法流程为：
在这里插入图片描述

3. 讨论

本文主要创新点如下：

通过综合考虑之前成果中的近似误差和损失扰动，来重写损失函数，以增加量化后模型的测试精度
模仿 “一” 中的增量量化策略，但修改了分组策略：将远离权重中心点的值最为量化的一组，其余的作为固定的一组，然后精心重训练

缺点如下：

没有详细解释量化函数中的阈值 $\Delta$ ，而是直接定义 $\Delta=0$ 或者 $\Delta=\pm0.5\alpha_l$
对新提出的分组策略没有详尽地介绍，即如何得到interval bound factor $\sigma$ 的取值

三、RPR: Random partition relaxation for training; Binary and ternary weight neural networks

Cavigelli L, Benini L. RPR: Random partition relaxation for training; Binary and ternary weight neural networks[J]. arXiv preprint arXiv:2001.01091, 2020.
arXiv 2020

本文中心思想为：将待量化的权重 $\mathbb{W}_q$ 按照冻结因子 $FF=\frac{\mathbb{W}_q^{constr}}{\mathbb{W}_q}\in[0,1]$ 随机分为 $\mathbb{W}_q^{constr}$ 和 $\mathbb{W}_q^{relaxed}$ 。首先，选择一个 $FF$ 的值，将 $\mathbb{W}_q^{constr}$ 中的权重量化，然后重训练修改 $\mathbb{W}_q^{relaxed}$ ，最后重新将为量化之前的 $\mathbb{W}_q^{constr}$ 值代入。重复上述过程，直到 $FF = 1$ 时模型依旧可以收敛，量化后的结果就是最终结果。一个简单的示例如下：
在这里插入图片描述

四、Two-Step Quantization for Low-bit Neural Networks

Wang P, Hu Q, Zhang Y, et al. Two-step quantization for low-bit neural networks[C]//Proceedings of the IEEE Conference on computer vision and pattern recognition. 2018: 4376-4384.
CVPR 2018 CCF-A会

1. 动机和贡献

动机： DNN的量化过程中，需要量化两种参数：“权重”和“激活”，但是当这两种参数同时使用较低精度量化时，模型测试精度下降会十分严重，甚至导致模型不能收敛。
注：和之前不同的是，本文提到了量化“激活”。具体概念在 2.1 中解释。

贡献： 为了解决同时量化 “权重”和“激活” 导致的模型性能下降的问题，本文提出了一种两步走量化策略TSQ，来解耦权重量化过程和激活量化过程，主要包括如下两个部分：

code learning（量化激活）：利用网络中的 “激活稀疏性activation sparsity” 进行量化；
注：大多文献关注权重的稀疏性，而没有解决激活的稀疏性
transformation function learning（量化权重）：当激活量化之后，认为它已经是最忧，然后利用 “最小二乘法” 优化权重。

2. 算法

2.1 量化权重与量化激活

传统DNN的优化问题可以转化为量化后DNN的优化问题，具体表示为：
$\begin{array}{ll}\text{minimize}&\mathcal{L}(Z_L,y)\\\text{subject to}&Z_l=W_lA_{l-1}\\&A_l=\psi(Z_l),\text{for}l=1,2,\cdots L\end{array} \overset{tanslate~into}{\Rightarrow}\quad \begin{aligned} &\operatorname*{minimize}_{\{W_{l}\}} \mathcal{L}(Z_{L},y) \\ &\text{subject to}~ \hat{W}_{l}=Q_{\boldsymbol{w}}(W_{l}) \\ &\qquad\qquad~~ Z_{l}=\hat{W}_{l}\hat{A}_{l-1} \\ &\qquad\qquad~~ A_{l}=\psi(Z_{l}) \\ &\qquad\qquad~~ \hat{A}_{l}={Q}_{\boldsymbol{a}}(A_{l}),\mathrm{for}l=1,2,\cdots L \end{aligned}$ 其中， $W_l$ 表示第 $l$ 层权重， $Q_{\boldsymbol{w}}\psi(\cdot)$ 表示权重量化函数； $A_l$ 表示第 $l$ 层激活（ $A_0$ 就是输入数据）， ${Q}_{\boldsymbol{a}}$ 表示激活量化函数； $\psi(\cdot)$ 表示DNN中的激活函数。

2.2 Code Learning（量化激活）

在这个阶段，所有的权重都是全精度的，只有激活会被量化，其核心思想是：绝对值大的激活对网络的左右大于小的，因此，引入稀疏度将所有低于某个阈值的激活设置为 $0$ ，用数学语言定义为：给定一个稀疏阈值（sparse threshold） $\epsilon$ ，那么量化函数为：
$\left.Q_\epsilon(x)=\left\{\begin{array}{cl}q_i'&x\in(t_i',t_{i+1}'],\\0&x\leq\epsilon,\end{array}\right.\right.$ 那么，量化函数可以由解决以下优化问题得到：
$Q_\epsilon^*(x)=\underset{Q_\epsilon}{\mathrm{argmin}}E_{x\sim\mathcal{N}(0,1),x>\epsilon}[(Q_\epsilon(x)-x)^2],$ 最后，稀疏阈值 $\epsilon$ 定义为：经过 批归一化batch normalization，每层的输出近似为一个标准正太分布 $x\sim\mathcal{N}(0,1)$ ，因此，给定一个稀疏度 $\theta$ ，稀疏阈值通过解决如下等式得到：
$\Phi(\epsilon)=P(x<=\epsilon)=\theta.$

注：上述过程说明，只要获得了稀疏度 $\theta$ 就可以得到量化函数。那么，如何获得稀疏度 $\theta$ 呢？本文没有详细说明，我认为是通过预处理过程吗？

2.3 Transformation Function Learning（量化权重）

经过 Code Learning，认为激活的量化已经是最优，表示为 $\hat{A}_l$ 。这个阶段，主要是考虑如何学习 $\hat{A}_{l-1}\rightarrow\hat{A}_{l}$ 的转换函数。假设 $\hat{A}_{l-1},\hat{A}_l$ 表示为 $X, Y$ ，那么，转换函数学习问题的解决如同解决如下最小二乘问题：
$\begin{aligned}&\text{minimize}\quad\parallel Y-Q_\epsilon(\Lambda\hat{W}X)\parallel_F^2\\=&\text{minimize}\quad\sum_{\{\alpha_i\},\{\hat{w}_i^T\}}\parallel y_i^T-Q_\epsilon(\alpha_i\hat{w}_i^TX)\parallel_2^2\end{aligned}$ 其中， $\alpha_i$ 表示量化后权重 $\hat{w}_i$ 的全精度缩放因子。
注：本文中 $\alpha_i$ 表示为量化后卷积核 $\hat{w}_i$ 的全精度缩放因子。

由于量化函数 $Q_{\epsilon}(\cdot)$ 没办法求导，因此本文中，通过引入一个辅助变量 $z$ 来解决，即：
$\underset{\alpha.\hat{w}}{\operatorname*{minimize}}\parallel y-Q_{\epsilon}(\alpha X^{T}\hat{w})\parallel_{2}^{2} \quad\Rightarrow\quad \underset{\alpha,\hat{w},z}{\operatorname*{minimize}}\quad\parallel y-Q_{\epsilon}(z)\parallel_{2}^{2}+\lambda\parallel z-\alpha X^{T}\hat{w}\parallel_{2}^{2}$ 其中， $\lambda$ 表示惩罚系数。

为了解决上述问题，本文采取交替策略，即：

固定 $z$ ，优化 $\alpha,\hat{w}$ ：优化问题转化为
$\underset{\alpha,\hat{w}}{\operatorname*{\mathrm{minimize}}}\quad J(\alpha,\hat{w})=\parallel z-\alpha X^{T}\hat{w}\parallel_{2}^{2}$ 通过设置 $\partial J/\partial\alpha=0$ ，得到
$\alpha^*=\frac{z^TX^T\hat{w}}{\hat{w}^TXX^T\hat{w}} \quad\overset{代入原式}{\Rightarrow}\quad \hat{w}^*=\underset{\hat{w}}{\mathrm{argmax}}\frac{(z^TX^T\hat{w})^2}{\hat{w}^TXX^T\hat{w}}$ 这样，就可以通过 ”暴力搜索“ 的方式，得到最佳的 $\alpha,\hat{w}$ 。
固定 $\alpha,\hat{w}$ ，优化 $z$ ：优化问题转化为
$\min_{z_i}\text{minimize}\quad(y_i-Q_\epsilon(z_i))^2+\lambda(z_i-v_i)^2,$ 其中， $v=\alpha X^T\hat{w}$ 是一个已知向量。为了进一步简化问题，将量化函数 $Q_{\epsilon}$ 放缩为 $\tilde{Q}_{\epsilon}$ :
$\left.\tilde{Q}_{\epsilon}(x)=\left\{\begin{array}{cl}M&x>M,\\x&0<x\leq M,\\0&x\leq0.\end{array}\right.\right.$ 那么，上述优化问题可以通过分类讨论得到解：
$\begin{cases} z_i\leq 0 &\Rightarrow\quad z_{i}^{(0)}=min(0,v_{i})\\ 0<z_i\leq M &\Rightarrow\quad z_i^{(1)}=min(M,max(0,\frac{\lambda v_i+y_i}{1+\lambda}) \\ M<z_i &\Rightarrow\quad z_{i}^{(2)}=max(M,v_{i}) \end{cases}$

关于初始化 $\alpha,\hat{w}$ 的方式：本文通过解决如下优化问题，获得初始化值：
$\begin{array}{ll}\text{minimize}&\parallel w-\alpha\hat{w}\parallel_2^2\\\text{subject to}&\alpha>0\\&\hat{w}\in\{-1,0,+1\}^m\end{array},$ 那么，
$\begin{aligned}\alpha^*&=\frac{w^T\hat{w}}{\hat{w}^T\hat{w}}\\\hat{w}^*&=\underset{\hat{w}}{\mathrm{argmax}}\frac{(w^T\hat{w})^2}{\hat{w}^T\hat{w}}\end{aligned}.$

3. 讨论

本文主要贡献是

通过 ”两步走“ 的策略，当权重量化和激活量化解耦
本文量化第 $l$ 层时，前 $l - 1$ 层已经量化完毕，表示为
$\underset{\Lambda,\hat{W}}{\operatorname*{minimize}}\quad\parallel Y-Q_{\epsilon}(\Lambda\hat{W}\tilde{X})\parallel_{F}^{2}$ 这就解决了不同层独立量化中出现的 误差积累 的问题

借鉴点：

对不同层之间的量化方式可以不是独立，这样可以缓解误差的积累问题
之前都是考虑量化权重，是否可以考虑量化激活

五、Ternary Neural Networks with Fine-Grained Quantization

Mellempudi N, Kundu A, Mudigere D, et al. Ternary neural networks with fine-grained quantization[J]. arXiv preprint arXiv:1705.01462, 2017.
arXiv 2017

1. 动机和贡献

动机： 低精度模型可以减少计算量和内存消耗，对边缘设备是十分友好的，但是却面临着测试精度下降的问题。

贡献： 本文提出一种细粒度的量化策略FGQ，在没有重训练的情况下，使用三元表示梯度，取得了较好的测试精度。

2. 算法

2.1 问题引出

TWN 中三元量化可以表示为：
$\alpha^{*},\Delta^{*}=\underset{\alpha\geq0,\Delta>0}{\operatorname*{argmin}}E(\alpha,\Delta)\overset{def}{=}\|\mathbf{W}-\alpha\hat{\mathbf{W}}\|_F^2,\\\mathrm{s.t.}~\alpha\geq0,\hat{\mathbf{W}}_{i}\in\{-1,0,+1\},i=1,2,\cdots,n$ 其中， $W\in\mathbb{R}^n$ ；同时，为了更好地表示正负权重的不同分布，通常也会对其使用不同的阈值参数 $\Delta_{p}\text{ and }\Delta_{n}>0$ 。但是使用单一或者少数的阈值 $\Delta$ 和缩放因子 $\alpha$ 会导致量化后权重不能很好表示原始权重之间不同的分布，从而导致量化误差的增大。

基于此，本文提出了一种新的更细粒度的算法。

2.2 算法描述

假设 $I$ 表示权重 $W\in\mathbb{R}^n$ 的 $n$ 个索引组成的集合。将 $I$ 正交的分为 $k$ 个子集，表示为 $c_1,c_2\cdots c_k$ ，则有 $c_{i}\cap c_{j}=\emptyset,\cup_{i}c_{i}=I,\sum_{i}n_{i}=n$ 。同理，权重 $W$ 也分为 $k$ 个正交向量 $W^{(i)}\in\mathbb{R}^n,i=1,2,\cdots,k$ ，且 $\mathbf{W}_{j}^{(i)}=\mathbf{W}_{j}\text{ if }j\in c_{i},\text{ otherwise }0$ ，因此有 $\sum_{i}\mathbf{W}^{(i)}=\mathbf{W}$ 。根据其正交性，可以有：
$(\mathbf{W}^{(i)}-\alpha_{i}\hat{\mathbf{W}}^{(i)})\perp (\mathbf{W}^{(j)}-\alpha_{j}\hat{\mathbf{W}}^{(j)}),\mathrm{for~}i\neq j \quad\Rightarrow\quad \|\mathbf{W}-\sum_{i}\alpha_{i}\hat{\mathbf{W}}^{(i)}\|_{F}^{2}=\sum_{i}\|\mathbf{W}^{(i)}-\alpha_{i}\hat{\mathbf{W}}^{(i)}\|_{F}^{2}$ 那么上述优化问题转换为：
$\alpha_{1}^{*},..,\alpha_{k}^{*},\hat{\mathbf{W}}^{(1)*},..,\hat{\mathbf{W}}^{(k)*}=\underset{\alpha_{i},\hat{\mathbf{W}}^{(i)}}{\operatorname*{argmin}}\|\mathbf{W}-\sum_{i}\alpha_{i}\hat{\mathbf{W}}^{(i)}\|_{F}^{2}=\sum_{i}\underset{\alpha_{i},\hat{\mathbf{W}}^{(i)}}{\operatorname*{argmin}}\|\mathbf{W}^{(i)}-\alpha_{i}\hat{\mathbf{W}}^{(i)}\|_{F}^{2}$ 这样，就可以单独解决 $k$ 个子问题。

另外，如果对正负权重使用不同的阈值，则优化问题是：
$\alpha^{*},\Delta_{p}^{*},\Delta_{n}^{*}=\underset{\alpha\geq0.\Delta_{n}>0.\Delta_{n}>0}{\operatorname*{argmin}}\|\mathbf{W}-\alpha\hat{\mathbf{W}}\|_{F}^{2},\quad\mathrm{s.t.}\quad\hat{\mathbf{W}}_{i}\in\{-1,0,+1\},i=1,\cdots,n.$

根据 TWN 中给出的解析解，有：
$\alpha^{*}=(\sum_{i\in I_{\Delta}}|\mathbf{W}_{i}|)/|I_{\Delta}|,\quad\Delta^{*}=\mathop{\mathrm{argmax}}_{\Delta>0}(\sum_{i\in I_{\Delta}}|\mathbf{W}_{i}|)^{2}/|I_{\Delta}|$ 或者
$\Delta_{p}^{*},\Delta_{n}^{*}=\mathop{\mathrm{argmax}}_{\Delta_{p}>0,\Delta_{n}>0}\frac{(\sum_{i\in I_{\Delta}^{+}}|\mathbf{W}_{i}|+\sum_{i\in I_{\Delta}^{-}}|\mathbf{W}_{i}|)^{2}}{|I_{\Delta}^{+}|+|I_{\Delta}^{-}|},\quad\alpha^{*}=\frac{\sum_{i\in I_{\Delta}^{+}}|\mathbf{W}_{i}|+\sum_{i\in I_{\Delta}^{-}}|\mathbf{W}_{i}|}{|I_{\Delta}^{+}|+|I_{\Delta}^{-}|}$

那么，如何进行分组？
原文中没有详细给出分组策略，只是给出分组需要遵守的原则是：尽可能使组中权重有着相同的数据分布。
原文中也提到了使用K-means聚类方法，只不过对算力有一定要求。

六、SYQ: Learning Symmetric Quantization For Efficient Deep Neural Networks

Faraone, Julian, et al. “Syq: Learning symmetric quantization for efficient deep neural networks.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.
CVPR 2018 CCF-A会

1. 动机和贡献

动机： 由于量化导致DNN前馈和后馈过程中大量梯度的错配，因此导致推理过程中模型精度的大幅度下降。

贡献： 本文提出一种 “对称性三元量化”策略SYQ。首先通过权重的位置对其进行分组，然后对不同组权重给出不同的缩放因子。
注：本文中主要关心DNN中的 “卷积层CONV”。

2. 算法

2.1 权重量化

根据 TWN 中的描述，三元量化函数定义为：
$Q_l=sign(W_l)\odot M_l,$ 其中，权重 $W_l\in\mathbb{R}^{K\times K\times I\times N}$ ， $K$ 表示卷积核大小， $I$ 表示输出特征数， $N$ 表示输出特征数；掩码矩阵定义为：
$M_{l_{i,j}}=\begin{cases}\quad1&\quad\text{if}\quad|W_{l_{i,j}}|\geq\eta_l\\\quad0&\quad\text{if}\quad-\eta_l<W_{l_{i,j}}<\eta_l\end{cases}$ 根据 TTQ 中定义，阈值 $\eta=0.05\times\max{(\|W_l\|)}$ 。类似于TTQ中解决梯度消失的方式，本文中也采用STE的方式，即：
$\frac{\partial\hat{E}}{\partial W_{l_{i,j}}}=\frac{\partial\hat{E}}{\partial Q_{l_{i,j}}},$ 其中， $\hat{E}$ 表示没有缩放因子的误差函数

2.2 收缩因子定义和分组

收缩因子 $c_i$ 采用和TWN中相同的对称收缩因子的定义方式，本文采用的数学语言描述为：
$\forall c_i\in C^p,\quad\exists|c_j|\in C^n\quad\text{where}\quad c_i=|c_j|,$ 其中， $C^{p}=\{c_{i}|c_{i}>0\},C^n=\begin{Bmatrix}c_j|c_j<0\end{Bmatrix}$ 。因此，使用STE方法有：
$\frac{\partial E}{\partial W_{l_{i,j}}}=\frac{\partial E}{\partial Q_{l_{i,j}}}=\alpha_{l}^{i}\frac{\partial\hat{E}}{\partial Q_{l_{i,j}}}.$
因此，本文可以采用和TWN、TTQ相同的思路，采用向后传播的方式逐步更新缩放因子，其初始值定义为相对应权重绝对值的均值，即：
$\alpha_{l_{0}}^{i}=\frac{\sum_{j\in S_{l}^{i}}\left|\tilde{W}_{l_{i,j}}\right|}{I\times N}.$

分组方式： 本文中的分组方式是一个比较新颖的点，包括两种方式，c。但是对于这两种方式的具体优势，本文没有给出。下图是这种分组方式的示意图：
在这里插入图片描述

3. 讨论

本文基本采用TWN、TTQ这两篇文章的中心思想，有所不同的是给出两种权重分组策略，所以我认为创新性不太充足。

缺点：

本文中对误差函数的定义没有详细说明，可能采用与TWN、TTQ中相同的定义方式，即 $J(\alpha,\hat{W}=\|W-\alpha\hat{W}\|_2^2)$ ；
对收缩因子的定义不清，似乎本文收缩因子绝对值采用 “绝对值权重和的平均” 来定义；
对于文中所提到的pixel-wise和row-wise的两种分组方式，都是适用于卷积层CONV，对于其他类型的学习算法，并不适用。

七、Fixed-point factorized networks

Wang P, Cheng J. Fixed-point factorized networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 4012-4020.
CVPR 2017 CCF-A会

1. 动机和贡献

动机： 为了压缩DNN模型，并加快其训练过程，同时尽可能地减少推理精度损失。

贡献： 本文提出了一种基于矩阵不动点分解网络模型 FFN，将原始全精度权重使用 $(- 1, 0, + 1)$ 三元组表示，具体分为如下三个部分：

direct fixed-point factorization：基于矩阵不动点分解，FFN分解原始全精度权重，这种分解方式十分灵活且准确；
full precision weight recovery：进行梯度累加时，如果直接使用量化值进行相加，会损失重要信息，因此，本文将量化值重新恢复为（伪）全精度值进行梯度累加；
weight balancing：由于分解形式不是唯一的，使用分解技术通常会产生权重不平衡问题，因此，本文提出了一种有效的权重平衡策略。

2. 算法

2.1 Fixed-point Factorization of Weight Matrices

假设全精度权重矩阵为 $W\in R^{m\times n}$ ，那么其半离散分解SDD可以表示为：
$\begin{equation*} \begin{split} &\qquad\underset{{X,D,Y}}{\operatorname{minimize}}\parallel W-XDY^T\parallel_F^2\\\\&=\underset{{\{x_i\},\{d_i\},\{y_i\}}}{\operatorname{minimize}}\parallel W-\sum_i^kd_ix_iy_i^T\parallel_F^2 \end{split} \end{equation*}$ 其中， $X\in\{-1,0,+1\}^{m\times k},Y\in\{-1,0,+1\}^{n\times k}$ ， $D\in R^{k\times k}_+$ 是一个对角矩阵， $k$ 代表了SDD分解的维数（选择不同的 $k$ 可以尽可能准确的模拟原始全精度权重，注意到 $k$ 可以比 $m, n$ 都要大）。

由于上述优化问题的三元值限制，这是一个NP问题，本文借用[19]中的内容，使用贪心策略得到其近似解，具体过程见如下算法：
在这里插入图片描述

2.2 Full-precision Weight Recovery

假设 $X, Y$ 的全精度表示为 $\hat{X},\hat{Y}$ ，注意到 $\hat{X},\hat{Y}$ 必须量化到 $X, Y$ 。本文中，将全精度权重恢复技术视为量化过程的逆过程，描述为：
$\begin{array}{rl}{\mathrm{minimize}}&{\parallel W-\hat{X}D\hat{Y}^{T}\parallel_{F}^{2}}\\{\mathrm{subject~to}}&{\mid\hat{X}_{ij}-X_{ij}\mid<0.5,\forall i,j}\\&{\mid\hat{Y}_{ij}-Y_{ij}\mid<0.5,\forall i,j}\end{array}$ 这里的两个限制条件是为了 $\hat{X},\hat{Y}$ 可以量化到 $X, Y$ 。注意到 $\hat{X},\hat{Y}\in[-1.5,1.5]$ ，同时一开始原始权重也限制到 $[- 1.5, 1.5]$ 之内。因此， $\hat{X},\hat{Y}$ 的量化可以是：
$\left.q(A_{ij})=\left\{\begin{array}{cc}+1&\quad0.5<A_{ij}<1.5\\0&-0.5\leq A_{ij}\leq0.5\\-1&-1.5<A_{ij}<-0.5\end{array}\right.\right.$