Ternary weight networks

最新推荐文章于 2021-11-07 22:23:39 发布

大星小辰

最新推荐文章于 2021-11-07 22:23:39 发布

阅读量870

点赞数 1

分类专栏：模型量化文章标签：量化

本文链接：https://blog.csdn.net/qq_28306361/article/details/101266795

版权

模型量化专栏收录该内容

11 篇文章 0 订阅

订阅专栏

文章目录

Ternary weight networks

文章链接

Ternary weight networks

主要提出了一个Ternary weight networks（TWNs），它将网络的权值限制为 ${-1， 0， 1\}$ 。并且把它的性能和binary precision weight networks（BPWNs）和full precision weight networks（FPWNs）做了比较。

Expressive ability：能够表达的滤波器更多，例如对于一个 $3\times3$ 的滤波器，可以有 $3^{3*3}=19683$ 种模板，而BPWNs只有 $2^{3*3}=512$ 种模板

Model compression：比BPWNs大一倍

Computation requirement：就计算量而言，由于0是不需要任何的乘法计算的，所以计算量和BPWNs相同。

Problem formulation

目标：最小化原始的权重W和乘以一个非负的尺度因子 $\alpha$ 的三值化之后的权重 $W^t$ 之间的欧拉距离（Euclidian distance），即：
$Cannot read property 'type' of undefined$
这里n是滤波器的大小。TWNs在前向时的传播如下所示;
$Cannot read property 'type' of undefined$
其中， $X$ 是一个block的输入， $*$ 表示卷积运算或者inner product， $g$ 是非线性激活函数， $\oplus$ 表示inner product或者是不做乘法的卷积运算。 $X^{next}$ 表示这个block的输出，或者下一个block的输入。

Approximated solution with threshold-based ternary function

$W_i^t=f_t(W_i |\Delta)= \begin{cases} +1,&\ \ if &W_i\ \ &>&\Delta \\ 0,&\ \ if &\begin{vmatrix} W_i \end{vmatrix}&\leqslant &\Delta\\ -1,&\ \ if &W_i\ \ &<-&\Delta \end{cases} \tag{3}$

式中， $\Delta$ 是一个正的阈值，将 $(3)$ 代入 $(2)$ 中，可得
$\alpha^*,\Delta^*=\mathop {argmin}_{\alpha \geq 0, \Delta \geq 0}(\begin{vmatrix} I_{\Delta} \end{vmatrix}\alpha^2-2(\sum_{i \in I_{\Delta}}\begin{vmatrix} W_i \end{vmatrix})\alpha+c_\Delta) \tag{4}$

其中， $I_{\Delta}=\{i|\begin{vmatrix} W_i \end{vmatrix} \}>\Delta$ ， $\begin{vmatrix} I_{\Delta} \end{vmatrix}$ 表示 $I_{\Delta}$ 中权值大于 $\Delta$ 的个数。 $c_\Delta=\sum_{i\in {I_{\Delta}^{c}}}W_i^2$ 是一个与 $\alpha$ 无关的常量。因此，对于一个给定的 $\Delta$ ， $\alpha$ 的最优值为：
$\alpha_\Delta^*={1\over\begin{vmatrix} I_{\Delta} \end{vmatrix}}\sum_{i \in I_{\Delta}}\begin{vmatrix} W_i \end{vmatrix} \tag{5}$
将 $(4)$ 式中的 $\Delta$ 固定， $c_\Delta$ 是一个常数可忽略，对 $\alpha$ 求导即可得到 $(5)$ 。将 $(5)$ 式代入 $(4)$ 中，可以得到一个与 $\Delta$ 相关的方程，简化可得：
$\Delta^*=\mathop {argmax}_{\Delta > 0}{{1\over\begin{vmatrix} I_{\Delta} \end{vmatrix}}(\sum_{i \in I_{\Delta}}\begin{vmatrix} W_i \end{vmatrix})^2} \tag{6}$
但是式 $(6)$ 没有一个直接的解，因此假设 $W_i$ s是均匀分布或者正态分布的(uniform or normal distribution)，为了简化计算，估计
$\Delta^* \approx 0.7\cdot E(\begin{vmatrix} W \end{vmatrix}) \approx{1\over n}\sum_{i=1}^n\begin{vmatrix} W_i \end{vmatrix} \tag{7}$
在具体的实现过程中，即先计算出网络的阈值 $\Delta^*$ ，利用它根据 $(3)$ 式把网络的权值变为 ${-1,0,1\}$ ，对于某一层的输入 $X$ ，根据 $(2)$ 式把它乘以 $\alpha$ 得到 $\alpha X$ 作为新的输入，然后进行前向的传播。

Training with stochastic gradient descent method

使用了SGD训练TWNs，三值化的权重在前向传播和反向传播时使用，但是在参数更新时不使用，另外，还使用了Batch Normalization、learning rate scaling、momentum。

Model compression and run time usage

相对于float和double精度的模型，就运行时间而言，该模型可达到16倍或者32倍的压缩倍率。

Experiments

具体可参见论文
在这里插入图片描述

大星小辰

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Ternary weight networks

文章目录Ternary weight networksProblem formulationApproximated solution with threshold-based ternary functionTraining with stochastic gradient descent methodModel compression and run time usageExperiment...
复制链接

扫一扫