二值量化

最新推荐文章于 2025-03-08 00:15:00 发布

hey-yahei

最新推荐文章于 2025-03-08 00:15:00 发布

阅读量3.6k

点赞数 1

文章标签：机器学习神经网络

本文链接：https://blog.csdn.net/qq_20759449/article/details/104437677

版权

本文介绍了二值量化在神经网络中的发展历程，包括BNN、XNOR-Net、Bi-RealNet和BinaryDenseNet等模型。这些模型通过二值化权重和激活来提高计算速度和效率。BNN是二值神经网络的开创者，XNOR-Net引入了权重缩放因子，Bi-RealNet通过改进的STE和参数更新策略提高性能，而BinaryDenseNet则结合ResNet和DenseNet的优点，通过非二值化的过渡层来优化信息传递。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文链接：https://www.yuque.com/yahei/hey-yahei/binary_quantization

最近号称达到MobileNet水平的二值网络MeliusNet面世，趁这个机会顺便梳理一下二值量化的发展历程吧。

参考：

BNN

算是开山之作，同时二值化了权重和激活，但精度挺低，只在MNIST跟CIFAR10上做了些实验。
论文：《Binarized Neural Networks(NIPS2016)》
参考：《二值神经网络（Binary Neural Network，BNN） | CSDN, 张雨石》
实现：https://github.com/itayhubara/BinaryNet.pytorch

二值化形式

BNN提出了两种二值化形式，一种是决策形式，一种是随机形式。

决策形式：直接根据连续值的符号，准确地二值化为+1或-1
![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9jZG4ubmxhcmsuY29tL3l1cXVlL19fbGF0ZXgvMDgxODE2ODNhOTYxY2ZkMTk1NzY0NWRkZTcxNTNjNmEuc3Zn?x-oss-process=image/format,png#card=math&code=x^{b}=\operatorname{sign}(x)=\left{\begin{array}{ll}
{+1} & {\text { if } x \geq 0} \
{-1} & {\text { otherwise }}
\end{array}\right.&height=45&width=247)
随机形式：引入随机因素，概率性地二值化为+1或-1
![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9jZG4ubmxhcmsuY29tL3l1cXVlL19fbGF0ZXgvZDk3MjkzYzg2NzA4Y2FhZjQ2MmQ2Zjk2M2Q4OGFjNGQuc3Zn?x-oss-process=image/format,png#card=math&code=x^{b}=\left{\begin{array}{ll}
{+1} & {\text { with probability } p=\sigma(x)} \
{-1} & {\text { with probability } 1-p}
\end{array}\right.&height=45&width=284)
其中为hard sigmoid函数，即![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9jZG4ubmxhcmsuY29tL3l1cXVlL19fbGF0ZXgvZmEyMDg1NTZmOWRjYWU3OTZiM2Y1NThlNTA3YTQwYjMuc3Zn?x-oss-process=image/format,png#card=math&code=\sigma(x)=\operatorname{clip}\left(\frac{x+1}{2}, 0,1\right)&height=45&width=182)
随机形式要求软硬件生成随机数，实现上比较复杂，所以BNN更倾向于决策形式的二值化

移位实现的BN层

为参数找到最接近的近似值，把乘法运算简化为位移运算

训练细节

权重和激活在前传和后传都二值化，梯度则继续使用浮点数
- 训练过程中梯度往往比较小而且需要累积，别说二值化了，即使普通的int8量化甚至是用半精度浮点数都会带来训练效果的损失；所幸在梯度上使用浮点数只是增加了训练的时间，预测阶段的速度不受影响
- 权重和激活值的量化引入了噪声，相当于引入正则化，反而还有利于模型的训练
二值化函数的梯度处处为0，显然没法直接用反向传播算法来进行训练
为了解决这一问题，作者使用了梯度直通评估器（straight-through estimator, STE），相当于用一个可导的hard tanh函数去近似sign函数
![](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9jZG4ubmxhcmsuY29tL3l1cXVlL19fbGF0ZXgvZDdlZGQyZGU1OTI2Y2FiZWRmOTRlOGEwMWM4ZGU5NTEuc3Zn?x-oss-process=image/format,png#card=math&code=htanh(x) = clip(x, -1, 1) \approx sign(x)\
g_r = \begin{cases}
1, & 0 \leq x \leq 1 \
0, & otherwise
\end{cases}&height=67&width=724)

### 优点