【论文学习笔记-1】XNOR-net

最新推荐文章于 2022-05-13 21:45:43 发布

Imperfactions

最新推荐文章于 2022-05-13 21:45:43 发布

阅读量852

点赞数

分类专栏：学习文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/Imperfactions/article/details/119085064

版权

学习专栏收录该内容

17 篇文章 8 订阅

订阅专栏

【论文学习笔记-1】XNOR-net

简介
二值化操作过程
XNOR-Networks

简介

文章中提出了两种二值化网络，分别是Binary-Weight-Networks和XNOR-Networks。

Binary-Weight-Networks对模型中的权重W进行二值化操作，即要么是1要么是-1。其中更新参数时依然采用原参数W进行更新。
XNOR-Networks通过对权重W和输入I都进行二值化操作，同时降低空间和实践复杂度。

二值化操作过程

传统的Conv层：I*W
其中I是输入，W是权重，*是卷积操作

Binary－weight－Network的二值化操作：（I*B）α
其中B为二值化的权重矩阵，α是一个实数。
二值化网络的过程就是找到合适的B和α。使得W≈αB，这里a默认为正数。
我们希望尺度参数α和二值矩阵B替代原来的权重，就希望W和αB的差距尽可能小，这里使用来描述两者的差距，设： $J(B,α) = ||W－B,α||^2$ 这里W和B看作向量，用的是向量的2范数的平方，则这里的α和B的取值则为J最小时对应的α和B的值，记为：
$α^*，B^*=argminJ(B，α)$ 由于矩阵二范数符合分配律，得：
$J(B,α) = α^2B^TB - 2αW^TB + W^TW$ 由于B是-1和1组成的向量，则B^TB为常数n，n为B的长度，又因为W是已知矩阵，则W^TW也是常量，设为c，则可以重写方程为：
$J(B,α)=α^2n-2αW^TB+c$
由J的定义知J一定非负，由于α默认为正数，则要使W^TB最小，则W^TB最大， $B^*=argmax(W^TB)$ ，故：
$B^*=sign(W)$ 确定了B的值后，J为一元二次方程，易得J最小时的α值：
$α^*=\frac{W^TB^*} n$ 替换B后得：
在这里插入图片描述
由此便确定了α和B的值。

因此，此处的二值权重滤波器只需要通过取原权重W的sign函数即可，而最优尺度因子α通过将权重各元素取绝对值再取平均值即可得到

训练N层的二值权重CNN的算法Algorithm1：
在这里插入图片描述
首先将每层的滤波器通过计算B和α二值化，然后用B和α进行前向传播，然后进行反向传播，参数更新时使用带动量的SGD或ADAM优化。

XNOR-Networks

XNOR-Networks将参数W和输入值I都进行二值化，这样卷积可通过XNOR和比特位运算高效实现：

令 $X^TW≈βH^TαB$ ，其中H,B均为二值矩阵，α，β为实数，近似公式为：

在这里插入图片描述
其中 $\odot$ 表示点乘，令Y_i=X_iW_i，Ci=H_iB_i,γ=βα，则等式可变为

在这里插入图片描述
相似于Binary-Weights-Networks中参数最优解的求解过程，可以得到，

这样X^TW就被近似为γ*C*。

对于卷积滤波器W经过处理的每一个I中的子Tensor（与W的shape相同），都要计算一个尺度因子（figure2有两个例子，尺度因子计算公式为对应子Tensor的l1范数的平均数），因为与卷积滤波器点乘的子Tensor有很多重叠部分，会产生很多重复计算过程。故而先计算一个矩阵A：

在这里插入图片描述
代表每个channel的元素值绝对值的平均数，然后用一个2D滤波器k（wh矩阵）对A进行卷积，得到矩阵K，其中k的每个元素均为1/(wh),则K所存储的就是所有的尺度因子β（易证明），当获得了α（与Binary-Weight-Networks计算方式相同）和β后就可以计算卷积操作的近似：
(1)式

以上 $\circledast$ 代表以XNOR或bitcount为基础操作的卷积操作。

训练 XNOR-Networks：
常规CNN网络中的block：卷积 $\to$ BN-norm $\to$ 激活 $\to$ 池化
在这里插入图片描述

XNOR-Networks中的改进：
为了减少二值化的损失，在二值化卷积层之前就对输入进行归一化，这让数据保持0均值，因此，阈值为0可以减少量化误差（不是很懂）

XNOR-Networks中的block：

在这里插入图片描述

在BinActiv中计算sign（I）和K，然后在BinConv中计算 (1)式然后再进行池化，同时可以在BinConv层后加入激活层，这样可以让XNOR-Networks与SOTA网络兼容使用。

XNOR-Networks的训练算法与Binary-Weight-Networks相同。

k-比特量化：
二值网络的递推，将sign函数替换为
在这里插入图片描述

Imperfactions

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【论文学习笔记-1】XNOR-net

【论文学习笔记-1】XNOR-Net文章中提出了两种二值化网络，分别是Binary-Weight-Networks和XNOR-Networks。Binary-Weight-Networks对模型中的权重W进行二值化操作，即要么是1要么是-1。其中更新参数时依然采用原参数W进行更新。XNOR-Networks通过对权重W和输入I都进行二值化操作，同时降低空间和实践复杂度
复制链接

扫一扫