Two-Step Quantization for Low-bit Neural Networks

最新推荐文章于 2023-02-07 22:44:27 发布

JachinMa

最新推荐文章于 2023-02-07 22:44:27 发布

阅读量425

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JachinMa/article/details/104431803

版权

本文提出解决低位神经网络量化问题的两步量化方法。首先对激活值进行稀疏量化，通过阈值处理增加稀疏度，然后利用标准正态分布的累积分布函数确定量化间隔。接着，对权重进行量化，通过交替优化放缩系数和量化间隔，避免直接优化离散量化函数导致的收敛困难。实验表明，这种两步量化策略能有效提高低位量化神经网络的训练效果。

摘要由CSDN通过智能技术生成

这篇文章的动机是：作者认为，低位量化时如果同时对权重和激活值进行量化，因为量化是一个阶梯函数，那么在使用SGD训练时，梯度的微小变化并不能很好地反应到量化的参数上。因此激活值梯度的方差就会很大，导致SGD很难收敛。

为了解决这个问题，作者将其分为两步进行：首先对激活值进行量化，接着对权重进行量化。

Sparse Quantization for Code Learning

在这一步时，作者先使用全精度的权重，对激活值进行量化。

作者发现，稀疏度(sparsity)的作用很大，而且更大的激活值对网络的影响更大。所以虽然常用的ReLU激活函数已经提供了50％的稀疏度，作者还是使用阈值方法对其进行了稀疏处理。

在这里插入图片描述
那么一个问题就是，如何选取ε。

作者从HWGW的文章里找到了思路：在进行BN操作后，可以认为输出符合一个标准正态分布。那么定义以下函数：
在这里插入图片描述
它是一个标准正态分布的累积分布函数，θ代表了这个分布被归零的比例，所以ε的定义问题就转换为θ的定义问题。作者做了如下实验：

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Two-Step Quantization for Low-bit Neural Networks

这篇文章的动机是：作者认为，低位量化时如果同时对权重和激活值进行量化，因为量化是一个阶梯函数，那么在使用SGD训练时，梯度的微小变化并不能很好地反应到量化的参数上。因此激活值梯度的方差就会很大，导致SGD很难收敛。为了解决这个问题，作者将其分为两步进行：首先对激活值进行量化，接着对权重进行量化。Sparse Quantization for Code Learning在这一步时，作者先使用全...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。