Towards Accurate Binary Convolutional Neural Network

最新推荐文章于 2022-03-28 18:52:42 发布

大星小辰

最新推荐文章于 2022-03-28 18:52:42 发布

阅读量670

点赞数

分类专栏：模型量化

本文链接：https://blog.csdn.net/qq_28306361/article/details/102455325

版权

模型量化专栏收录该内容

11 篇文章 0 订阅

订阅专栏

Towards Accurate Binary Convolutional Neural Network

文章目录

Towards Accurate Binary Convolutional Neural Network

文章链接 2017年11月30日

视频链接 (youtube)

Introduction

主要的工作：

1：使用多种binary weight base进行线性组合来接近全精度的权值

2：引入多种binary activations。这个将BNNs在Image上的精度提升了将近5%

Realted Work

We relied on the idea of finding the best approximation of full-precision convolution using multiple binary operations, and employing multiple binary activations to allow more information passing through.

Binarization methods

Weight approximation

用 $w,h,c_{in},c_{out})$ 表示一个层的tensors。有两种不同的量化方法：1) approximate weights as a whole and 2) approximate weights channel-wise

Approximate weights as a whole

使用 $M$ 个二值化的滤波器 $B_1,B_2,\cdots,B_M \in \{-1, +1\}^{w\times h\times c_{in}\times c_{out}}$ 来逼近实值的权重 $W\in \mathbb{R}^{w\times h\times c_{in}\times c_{out}}$ ，如 $\approx \alpha_1B_1+\alpha_2B_2+\dots+\alpha_MB_M$ 。一个直接方法是解下面的这个问题：
$\min _{\boldsymbol{\alpha}, \boldsymbol{B}} J(\boldsymbol{\alpha}, \boldsymbol{B})= {{||\boldsymbol{w}-\boldsymbol{B}\boldsymbol{\alpha}||}^2 \text{ s.t. } \boldsymbol{B}_{i j} \in\{-1,+1\} }\tag{1}$ 式中， $\boldsymbol{B}=\left[\operatorname{vec}\left(\boldsymbol{B}_{1}\right), \operatorname{vec}\left(\boldsymbol{B}_{2}\right), \cdots, \operatorname{vec}\left(\boldsymbol{B}_{M}\right)\right], \boldsymbol{w}=\operatorname{vec}(\boldsymbol{W}) \text { and } \boldsymbol{\alpha}=\left[\alpha_{1}, \alpha_{2}, \cdots, \alpha_{M}\right]^{\mathrm{T}}$ ， $\operatorname{vec}(\cdot)$ 表示的是向量化。假设用 $\operatorname{mean}(\boldsymbol{W})$ 和 $\operatorname{std}(\boldsymbol{W})$ 分别表示 $\boldsymbol{W}$ 的均值和方差，那么将 $B_i$ 改为：
$\boldsymbol{B}_{i}=F_{u_{i}}(\boldsymbol{W}):=\operatorname{sign}\left(\overline{\boldsymbol{W}}+u_{i} \operatorname{std}(\boldsymbol{W})\right), i=1,2, \cdots, M\tag{2}$ 式中， $\overline{\boldsymbol{W}}=\boldsymbol{W}-\operatorname{mean}(\boldsymbol{W})$ ， $u_i$ 是一个滑动因子。例如，将 $u_i$ 设定为 $u_i=-1+(i-1){2 \over M-1},i=1,2,\cdots,M$ 来覆盖的整个 $[-\operatorname{std}(\boldsymbol{W}),\operatorname{std}(\boldsymbol{W})]$ 范围，或者通过网络去学习。

一旦 $\boldsymbol{B}_i$ 选定之后，上面的问题就变成了一个线性回归问题：
$\min _{\boldsymbol{\alpha}} J(\boldsymbol{\alpha})=\|\boldsymbol{w}-\boldsymbol{B} \boldsymbol{\alpha}\|^{2}\tag{3}$ 式中， $\boldsymbol{B}_i$ 是the bases in the design/dictionary matrix。然后使用STE更新 $\boldsymbol{B}_i$ 。假定 $c$ 是代价函数， $\boldsymbol{A}$ 和 $\boldsymbol{O}$ 分别是卷积的输入输出tensor，前向和反向就可以按照如下的形式计算：
$\begin{array}{l}{\text { Forward: } B_{1}, B_{2}, \cdots, B_{M}=F_{u_{1}}(W), F_{u_{2}}(W), \cdots, F_{u_{M}}(W)} \\ {\text { Solve }(3) \text { for } \alpha} \\ {\qquad \begin{aligned} O=& \sum_{m=1}^{M} \alpha_{m} \operatorname{Conv}\left(B_{m}, A\right) \\ \text { Backward: } \frac{\partial c}{\partial W} &=\frac{\partial c}{\partial O}\left(\sum_{m=1}^{M} \alpha_{m} \frac{\partial O}{\partial B_{m}} \frac{\partial B_{m}}{\partial W}\right) \stackrel{\text { sTE }}{=} \frac{\partial c}{\partial O}\left(\sum_{m=1}^{M} \alpha_{m} \frac{\partial O}{\partial B_{m}}\right)=\sum_{m=1}^{M} \alpha_{m} \frac{\partial c}{\partial B_{m}} \end{aligned}}\end{array}$

Multiple binary activations and bitwise convolution

为了实现bitwise操作，必须将激活值也量化掉，因为它们将作为卷积的输入。激活函数表示为 $h(x)\in [0,1]$ ：
$h_v(x)=\operatorname{clip}(x+v,0,1)\tag{4}$ 式中， $v$ 是滑动因子。量化的函数为：
$H_{v}(\boldsymbol{R}):=2 \mathbb{I}_{\boldsymbol{h}_{v}(\boldsymbol{R}) \geq 0.5}-1\tag{5}$ 式中， $\mathbb{I}$ 是标志函数，activation的前向和反向就可以这么计算：
$\begin{array}{l}{\text { Forward: } A=H_{v}(\boldsymbol{R})} \\ \\ \\ {\text { Backward: } \frac{\partial c}{\partial \boldsymbol{R}}=\frac{\partial c}{\partial \boldsymbol{A}} \circ \mathbb{I}_{0 \leq \boldsymbol{R}-v \leq 1} \text { (using STE) }}\end{array}$
其中 $\operatorname{o}$ 表示Hadamard product。
首先，让激活值的分布保持相对稳定，使用了batch normalization，把它放在激活函数之前。然后，使用 $N$ 个额二值激活值的线性组合逼近实值 $R\approx \beta_1\boldsymbol{A}_1+\beta_2\boldsymbol{A}_2+\dots+\beta_N\boldsymbol{A}_N$ ，其中，
$\boldsymbol{A}_1,\boldsymbol{A}_2,\dots,\boldsymbol{A}_N=H_{v1}(\boldsymbol{R}),H_{v2}(\boldsymbol{R}),\dots,H_{vN}(\boldsymbol{R}) \tag{6}$ 式中， $\beta_n$ 和 $v_n$ 是可以训练的，在测试时固定，用来学习数据的分布。最后整个卷积操作变为：
$\operatorname{Conv}(\boldsymbol{W}, \boldsymbol{R}) \approx \operatorname{Conv}\left(\sum_{m=1}^{M} \alpha_{m} \boldsymbol{B}_{m}, \sum_{n=1}^{N} \beta_{n} \boldsymbol{A}_{n}\right)=\sum_{m=1}^{M} \sum_{n=1}^{N} \alpha_{m} \beta_{n} \operatorname{Conv}\left(\boldsymbol{B}_{m}, \boldsymbol{A}_{n}\right)\tag{7}$ 这也意味着它能够并行地计算 $M\times N$ bitwise convolutions 。

Training algorithm

作者说一般的层的连接顺序为 $\text{Conv}\rightarrow \text{BN}\rightarrow \text{Activation}\rightarrow \text{Pooling}$ ，但是在实际过程中，经过最大值池化会将大量的值都变为+1，造成准确度下降。因此，将max-pooling放在BN层之前。具体的训练过程在补充材料当中。