[京哥读论文]之XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks

最新推荐文章于 2021-07-26 13:19:30 发布

京哥搞异构AI

最新推荐文章于 2021-07-26 13:19:30 发布

阅读量642

点赞数 1

分类专栏：压缩量化二值化

本文链接：https://blog.csdn.net/ajj15120321/article/details/80799261

版权

压缩同时被 3 个专栏收录

8 篇文章 1 订阅

订阅专栏

量化

8 篇文章 0 订阅

订阅专栏

二值化

8 篇文章 0 订阅

订阅专栏

Abstract

本文是一篇经典的二值化weight和activations的文章，发表在ECCV2016.本文提出了两种有效二值化的框架： $X N O R - N e t$ 以及 $B W N$ (Binary-Weight-Networks).在存储方面可以节省32倍的memory。在 $X N O R - N e t$ 上weights以及卷积层的input都是二值化的。在Imagenet数据集上用Alexnet做实验得到和全精度一样的accuracy。code地址: http://allenai.org/plato/xnornet.

Binary Convolutional Neural Network

设定一个三元组 $< I, W, * >$ 作为一个 $L$ 层的CNN框架， $I=I_{l(l=1,...,L)}$ 是CNN第 $l$ 层的输入， $W=W_{lk(k=1,...,K^l)}$ 是CNN第 $l$ 层第 $k$ 个滤波器的权重， $K^l$ 是第 $l$ 层滤波器的数量， $*$ 代表 $I$ 和 $W$ 的卷积操作，这里原文假设卷积核没有bias。 $I\in\mathbb R^{c\times w_{in}\times h_{in}}$ , $W\in\mathbb R^{c\times w\times h}$ , $w\le w_{in}$ , $h\le h_{in}$ .本文提出的两种架构一一介绍。
这里写图片描述

1.Binary-Weight-Networks(BWN)

本文直接给出了真实值 $W$ 与目标二值化的 $B\in \{+1,-1\}^{c\times w\times h}$ 之间的关系，用一个scaling factor $\alpha \in \mathbb R^+$ 来联系两个weight。 $\approx \alpha B$ ，一个卷积操作就可以近似为
$\approx (I\oplus B)\alpha \quad (1)$
$\oplus$ 代表不带任何乘法的卷积操作。由于weight是二值化的，所以可以实现一个卷积操作转化为加法和减法。用 $<I,B.A,\oplus>$ 代表二值化weight的CNN， $B=B_{lk}$ 是一个二值化的filter， $\alpha=A_{lk}$ ， $W_{lk}\approx A_{lk}B_{lk}$ .

Estimating binary weights

为了让loss不失一般性，假设 $W,B\in \mathbb R^{n},n=c\times w \times h$ 都是矢量.对于 $\approx \alpha B$ ，为了找到最优解，本文提出以下优化目标函数：
$J(B,\alpha)=\Vert W-\alpha B \Vert^2$
$\alpha^*,B^*=arg\min\limits_{\alpha,B} J(B,\alpha) \quad (2)$
展开公式(2)：
$\alpha)=\alpha^2B^TB - 2\alpha W^T B + W^TW \quad(3)$
$B\in \{+1,-1\}^n,B^TB=n$ 是一个常数。 $W^TW$ 也是一个常数由于 $W$ 是一个已经得变量，设定 $c=W^TW$ ,这样公式(3)就变为:
$\alpha)=\alpha^2n-2\alpha W^TB+c$ .
这样求** $B$ 的最优解**就变为以下的约束公式:
$B^*=arg\max\limits_B\{W^TB\}, \quad s.t.\quad B\in\{+1,-1\}^n \quad (4)$
这个最优解就是: $B_i=+1 \; if \;W_i \ge0$ 以及 $B_i=-1 \; if \; W_i <0$ .因此最优解就是: $B^*=sign(W)$ .为了找到 $\alpha^*$ 的最优解，可以求 $J$ 对 $\alpha$ 的导数并置0得:
$\alpha^*=\frac{W^TB^*}{n}\quad (5)$
带入 $B^*=sign(W)$ 得： $\alpha^*=\frac{W^Tsign(W)}{n}=\frac{\sum|W_i|}{n}=\frac{1}{n}\Vert W \Vert_{l1}\quad (6)$

Training Binary-Weights-Networks

训练CNN的每一次迭代包含三个步骤:forward pass, backward pass and parameters update.这里要注意一点:在训练二值化weight(在卷积层)的时候，只在forward pass和backward propagation的时候二值化weight。对 $s i g n (r)$ ,求导公式为 $\frac {\partial sign}{\partial r}=r1_{|r| \le 1}$ .weight的导数就是: $\frac {\partial C}{\partial W_i}=\frac {\partial C}{\partial \widetilde W_i}(\frac {1}{n}+\frac {\partial sign}{\partial W_i}\alpha)$ .对于update parameters来说，用全精度的weights，因为在梯度下降时，参数改变的很小，在更新完参数时，二值化可以忽略这些改变。
算法1展示了训练二值化weight的步骤：
这里写图片描述
首先:对于每一层先计算出B和A，然后使用二值化的weight进行前向，然后在进行反向，最后更新参数。

XNOR-Network

在BWN里面，用A和B来近似表示真实值，但是卷积层的输入仍然是真实值的。

1.Binary Dot Product

近似 $X\in \mathbb R^n$ 和 $W\in \mathbb R^n$ 的点乘： $X^TW \approx \beta H^T \alpha B$ , $\in \{+1, -1\}^n$ , $\alpha, \beta \in \mathbb R^+$ , 优化以下目标函数：
$\alpha^*,B^*, \beta^*, H^*=arg\min\limits_{\alpha,B,\beta,H} \Vert X \odot W -\beta \alpha H\odot B\Vert \quad (7)$
$\odot$ 代表element-wise乘(对应元素相乘)。
设定 $Y\in \mathbb R^n$ , $Y_i=X_iW_i, C\in\{+1,-1\}^n$ , $C_i=H_iB_i, \gamma=\beta \alpha$ .公式(7)可以重写为:
$\gamma^*, C^*=arg\min\limits_{\gamma, C} \Vert Y- \gamma C\Vert \quad (8)$
根据公式(2),我们可以得到最优解:
$C^*=sign(Y)=sign(X) \odot sign(W)=H^* \odot B^* \quad (9)$
由于 $X_i|$ 和 $W_i|$ 是独立的， $Y_i=X_iW_i$ ，所以 $E[|Y_i|]=E[|X_i||W_i|]=E[|X_i|]E[|W_i|]$ ,因此
$\gamma^* = \frac {\sum|Y_i|}{n}=\frac {|X_i||W_i|}{n} \approx (\frac {1}{n}\Vert X \Vert_{l1}) (\frac {1}{n}\Vert W \Vert_{l1})=\beta ^* \alpha^* \quad (10)$

2.Binary Convolution

这里写图片描述
输入 $I\in \mathbb R^{c\times w_{in} \times h_{in}}$ 在图二中有两个sub-tensors $X_1$ 和 $X_2$ 。由于sub-tensors之间有很多重叠，导致有很多冗余的计算。为了克服这个冗余，首先计算出输入 $I$ 在channel的均方和， $\frac {\sum |I_{:,:,i}\;|}{c}$ , 将 $A$ 和一个2D的卷积核 $k\in \mathbb R^{w \times h}, K=A*k， k_{ij}=\frac {1}{w\times h},\forall ij$ 。 $K_{ij}$ 对应位置 $i j$ 处的 $\beta$ ，一旦得到 $\alpha$ 和 $\beta$ ：
$\approx (sign(I) \circledast sign(W))\odot K \alpha \quad (11)$
$\circledast$ 表示一个卷积操作使用XNOR和bitcount操作。

3.Training XNOR-Networks

这里写图片描述
Fig.3 左图展示了典型的block，右图展示了XNOR-Net的block，binary activation layer(BinActiv)作用是计算出 $K$ 和 $s i g n (I)$ , BinConv层中，给定 $K$ 和 $s i g n (I)$ ,根据公式(11),计算二值化的卷积。训练算法跟算法1一样。