初入神经网络剪枝量化4（大白话）

最新推荐文章于 2023-11-17 22:56:00 发布

RANKING666

最新推荐文章于 2023-11-17 22:56:00 发布

阅读量1.3k

点赞数

文章标签：神经网络剪枝机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42638415/article/details/121346271

版权

二. 量化

简单介绍目前比较SOTA的量化方法，也是最近看的。

2.1 DSQ Differentiable Soft Quantization:Bridging Full-Precision and Low-Bit Neural Networks

本文的创新点主要在于引入了可微软量化的方法，来模拟近似量化过程。

通俗来说也就是，传统的量化方法都是利用round来取整，这就导致了量化的不可微。我们一般的处理方法都是使用STE(Straight Through Estimator)，也就是跳过对round的微分，直接让他等于1。

这会存在什么问题？误差。尤其是当我们进行低bit量化时，误差就会非常大。所以，如果我们可以提出一种量化函数，可微的同时还可以无限靠近round函数，那就很好的解决了STE的问题。所以本文定义了一个可以模拟round函数的函数。

具体推导这里不做过多讲解，因为比较复杂，笔者也没太搞懂。anyway，这是个可以训练的函数，通过不断训练可以更好的贴合我们的量化函数。

随着 k 增大，DSQ 和一般的伪量化越来越接近，而 DSQ 由于可导，还能近似模拟 round 的梯度。因此，在量化训练的时候，我们可以直接把伪量化换成 DSQ 函数。

但同时，作者注意到，无论怎么贴合训练，两者还是会有一定的误差，所以作者又引入了α，来衡量DSQ函数和round函数之间的误差。

α越小，证明误差越小。最后在损失函数中加上对α的约束即可。

故本文的核心思想就是使得量化可微。

2.2 LSQ：Learned Step Size Quantization

本文的创新点就是让S不再是通过min，max来确定，而是将他定为一个可训练的参数。

step size也就是scale，就是s，这里将s设置为可训练的参数，通过反向传播计算出更好更适应每一层的s。

同时，作者通过画出v与step size的微分图，发现这样训练还有一个好处。

这是round函数对于V的输出，我们知道round函数采用的四舍五入的方法，也就是如图，小于0.5输出0，大于0.5输出1，所以0.5处的斜率应该是非常大的。

作者画出了LSQ与QIL，PACT量化的微分图，可以看到只有LSQ在0.5处有微分陡增，所以LSQ的效果应该更好。

同时，研究表明当网络中所有权值层的平均更新幅度与平均参数幅度的比值近似相同时，可以获得良好的收敛性，所以作者认为step size的平均更新幅度也应该与平均参数幅度的比值近似相同。所以作者设计了一个比例系数来约束s的梯度。

然而，我们期望步长参数随着精度的增加而减小，也就是量化bit增加时，step size会减小，得到更为精确的量化。当量化比bit减少时，step-size会变大。为了让step-size的参数更新，能够适应量化比特数的调整，需要将step-size的梯度乘以一个scale系数。

第一个g乘在了权重上，第二个g乘在了激活值上。

以上就是LSQ的核心思想和要点。

2.3 PACT：PArameterized Clipping Activation for Quantized Neural Networks

这篇论文的核心思想主要是提出一个新的激活函数PACT。在大多数量化方法上，都专注于对于权重的量化，而对于激活的量化，均采用与权重相同的方法。

但这样其实是不合理的，首先，权重的量化误差可以通过训练学习而得到补偿，但是激活不可以。其次，权重的值与激活相比相对较小，同时现在大火的relu，他的问题就在于没有上界，可能会导致某些离散极大值点干扰量化。

如图，作者通过测试relu激活函数的量化前后的损失函数，发现在量化relu后，会产生较大的损失。

于是，作者提出了PACT激活函数，他可以在训练的过程中自动优化量化尺度。也就是截断式的relu。用α来截断，控制量化范围，这个α是可以训练的。同时，为了使得α可以较小，会对α使用L2正则化的操作。

然后，作者通过几组实验验证了PACT激活函数的优势。

如有错误，欢迎各位批评指正！！

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
初入神经网络剪枝量化4（大白话）

二. 量化简单介绍目前比较SOTA的量化方法，也是最近看的。2.1 DSQ Differentiable Soft Quantization:Bridging Full-Precision and Low-Bit Neural Networks本文的创新点主要在于引入了可微软量化的方法，来模拟近似量化过程。通俗来说也就是，传统的量化方法都是利用round来取整，这就导致了量化的不可微。我们一般的处理方法都是使用STE(Straight Through Es...
复制链接

扫一扫

RANKING666 CSDN认证博客专家 CSDN认证企业博客

码龄6年

37: 原创

39万+: 周排名

216万+: 总排名

16万+: 访问

: 等级

557: 积分

147: 粉丝

134: 获赞

50: 评论

911: 收藏

私信

关注

热门文章

最新评论

Up or Down? Adaptive Rounding for Post-Training Quantization（记录）
CCC！: 想问一下论文中z(L)不是等于当前L层的权重与L层的输入之积吗，为什么z(L)会与L-1层的weights有直接关系呀？
Yolov5更换backbone，与模型压缩（剪枝，量化，蒸馏）续
yolo我不会: 想问一下作者在yaml文件中写的 [-1, 3, C3, [512, False, 1, [0.5, 0.5], [1.0, 1.0, 1.0], 1.0]],后面三组数值是用来干啥的呀？
Yolov5更换backbone，与模型压缩（剪枝，量化，蒸馏）续
yolo我不会: 想问如何基于作者的项目进一步修改以适用到自己的模型中？
vision transformer 剪枝论文汇总
jiangquan384414031: 大佬请教下，第一篇vision transformer pruning 比如经典的vit：scaled Dot-Product Attention 前面的那层linear；维度应该是768*2304；那么d和n分别对应的是多少呢？
Yolov5更换backbone，与模型压缩（剪枝，量化，蒸馏）
m0_45004832: 你好，为什么换主干之后参数量会变大呢，轻量化模型不应该变小吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。