【Bit-level量化】BSQ: Exploring Bit-Level Sparsity for Mixed-Precision Neural Network Quantization

Mr.zwX

于 2024-02-06 17:32:56 发布

阅读量1.2k

点赞数 24

分类专栏：【深度学习/神经网络】Deep Learning 文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_16763983/article/details/136058927

版权

论文题目：
[ICLR 2021] BSQ: Exploring Bit-Level Sparsity for Mixed-Precision Neural Network Quantization

为什么研究这个（以前工作哪里不好）？

不同层的混合精度难以被定义为一个可微分的目标
由于混合精度量化巨大的搜索空间，NAS搜索方法面临巨大的搜索成本
Hessian方法可以对不同层的重要度排序，但是需要手工决定每层的精度选择

主要贡献

提出了一种基于梯度的bit-level量化训练算法。该算法将每一位量化的权重作为一个独立的可训练变量，允许使用基于梯度的优化以及直通估计器（STE）
提出了一种bit-level的group Lasso正则器，以动态地降低每层的权重精度，从而产生混合精度的量化方案
BSQ只使用一个超参数，即正则器强度，来权衡模型的性能和大小

核心方法

量化训练的前向传播和反向传播

在这里插入图片描述

其中， $w$ 是浮点表示， $w_q$ 是对应的 $n$ -bit定点表示。反向传播时，由于Round函数不可微分，所以求导时用浮点 $w$ 代替 $w_q$ 进行梯度计算。

前向传播使用 $w_q$ 计算模型输出和损失函数，反向传播使用浮点 $w$ 计算梯度，并且 $w$ 在整个训练过程中都保持浮点表示！

Bit-level量化的训练策略

第1步：提取W的动态范围
$W=s\cdot W_s$
其中， $s = ma x (∣ W ∣)$ 是scaling factor， $W_s$ 是缩放后的权重，于是 $W_s$ 的元素绝对值都在 $[0, 1]$ 范围内。这一步本质就是将浮点数除以scaling factor。

第2步：将 $W_s$ 量化到 $n$ -bit表示
现在对 $W_s$ 的元素进行量化：
$w_q=\frac{Round(|w_s|\cdot (2^n-1))}{2^n-1}$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Mr.zwX 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。