[京哥读论文]之ABC-Net：Towards Accurate Binary Convolutional Neural Network

最新推荐文章于 2022-10-14 15:57:37 发布

京哥搞异构AI

最新推荐文章于 2022-10-14 15:57:37 发布

阅读量719

点赞数

分类专栏：量化二值化压缩

本文链接：https://blog.csdn.net/ajj15120321/article/details/99661679

版权

量化同时被 3 个专栏收录

8 篇文章 0 订阅

订阅专栏

二值化

8 篇文章 0 订阅

订阅专栏

压缩

8 篇文章 1 订阅

订阅专栏

论文题目：Towards Accurate Binary Convolutional Neural Network_NIPS2017
引用量:98
code:https://github.com/layog/Accurate-Binary-Convolution-Network
https://github.com/cow8/ABC-Net-pytorch

由于之前二值化工作在ImageNet数据集上损失的精度很大，这篇文章是二值化领域第一次在ImageNet数据集与全精度最接近的文章.本文提出了一个ABC-Net，用多个二值函数的线性组合来近似浮点权重以及激活函数。在有足够多二值权值和激活值的情况下，ABC-Net 的准确率远比以往的二值网络更接近它们对应的浮点版本，甚至能在 ImageNet 和 forest trail 数据集上达到可以与浮点网络相比较的准确率。

Binarization methods

Weight aoproximation
考虑一个L层的CNN，每一层weights用 $w,h,c_{in},c_{out})$ 来表示，假设使用M个二值的线性组合。
- Approximate weights as a whole
  本文采用一组二值化基(binary filter base)的线性组合来逼近W,
  $\approx \alpha_1B_1 + \alpha_2B_2 + ... + \alpha_MB_M$
  本文类似XNOR优化以下问题：
  $\min \limits_{\alpha,B}=||w-B\alpha||^2, \quad s.t.B_{ij} \in {-1, +1} \quad (1)$
  $B=[vec(B_1),vec(B_2),...,vec(B_M)]$ , $w = v e c (W)$ , $\alpha = [\alpha_1,\alpha_2,...,\alpha_M]^T$
  尽管(1)可以得到一个局部最优解，但是不能反向传播来更新参数，所以针对每个网络层，本文采用一组固定数值的矢量表示二值化基，并且由网络层参数的均值与标准差决定：
  $B_i=F_{u_i}(W):=sign(\overline W + u_istd(W)), i=1,2,...,M \quad (2)$
  $\overline W=W-mean(W)$ , $u_i$ 是一个shift参数，比如： $u_i=-1+(i-1) \frac{2}{M-1},i=1,2,...,M$ ,将范围变为$[-std(W), std(W)] $.
  B固定后，优化变成了以下式子：
  $\min \limits_{\alpha}J(\alpha)=||w-B\alpha||^2 \quad (3)$
  前向和反向如下：
  $Forward:B_1,B_2,...,B_M=F_{u_1}(W),F_{u_2}(W),...,F_{u_M}(W) \quad (4)$
  $\quad \quad \quad \quad \quad \quad$ Solve (3) for $\alpha \quad (5)$ ,
  $O=\sum_{m=1}^{M} \alpha_m Conv(B_m,A) \quad (6)$
  $Backward:\frac{\partial c}{\partial W}=\frac{\partial c}{\partial O}(\sum_{m=1}^{M} \alpha_m \frac{\partial O}{\partial B_m} \frac{\partial B_m}{\partial W}) \overset{STE}{=} \frac{\partial c}{\partial O}(\sum_{m=1}^{M} \alpha_m \frac{\partial O}{\partial B_m})=\sum_{m=1}^{M} \alpha_m \frac{\partial c}{\partial B_m} \quad (7)$
  在测试时只用(6)即可。框图如下方左图所示：
  [外链图片转存失败(img-ACjOA54D-1565881699162)(https://i.loli.net/2019/08/14/hjevygPQqClV1FM.png)]
- Approximate weights channel-wise
  本文没有实现，思想就是一个卷积核的channel用一组二值化的基来线性组合，这样会变得非常复杂。
Mutiple binary activations and bitwise convolution
类似DoreFa[1]一样，本文也是确保激活输出的范围控制在 $\in [-1,1]$ , 可以用下面公式来表示：
$h_v(x)=clip(x+v,0,1) \quad (8)$
$v$ 是一个shift参数，比如 $v = 0$ , $h_v$ 就是Dorefa中的clip函数。
二值化:
$H_v(R):=2I_{h_v(R) \geq 0.5}-1 \quad (9)$
训练：
$Forward:A=H_v(R) \quad$
$Backward:\frac{\partial c}{\partial R}= \frac{\partial c}{\partial A} \circ I_{0 \leq R-v \leq 1}.\quad (using \; STE)$
$\circ$ 代表Hadamard乘积，就是对应位置相乘。
同样，用了一组不同参数的二值化激活函数，融合的参数仍然是可训练的：
$\approx \beta_1A_1+\beta_2A_2+...+\beta_NA_N$
$A_1,A_2,...,A_N=H_{v1}(R), H_{v2}(R), ..., H_{vN}(R)$
整个卷积过程：
$\approx Conv(\sum_{m=1}^M \alpha_m B_m, \sum_{n=1}^N \beta_n A_n)=\sum_{m=1}^M\sum_{n=1}^N \alpha_m \beta_n Conv(B_m, A_n)$

Results

可以看出输入时全精度，权重是二值的时候，M=5,结果接近全精度。
[外链图片转存失败(img-rai90K88-1565881699189)(https://i.loli.net/2019/08/14/dDaCBXOZRcgkyP1.png)]

本文贡献

本文提出了用线性组合来近似权重和激活值，是一个不限制bit数的量化算法，不同的组合情况准确率最终可以和FP相近

不足

虽然准确率很高，但是计算复杂度太高。

参考文献:
[1] S. Zhou, Y. Wu, Z. Ni, X. Zhou, H. Wen, and Y. Zou. Dorefa-net: Training low bitwidth convolutional neural
networks with low bitwidth gradients. arXiv preprint arXiv:1606.06160, 2016.

京哥搞异构AI

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
[京哥读论文]之ABC-Net：Towards Accurate Binary Convolutional Neural Network

论文题目：Towards Accurate Binary Convolutional Neural Network_NIPS2017引用量:98code:https://github.com/layog/Accurate-Binary-Convolution-Networkhttps://github.com/cow8/ABC-Net-pytorch由于之前二值化工作在ImageNet数据...
复制链接

扫一扫

专栏目录