深度学习-模型压缩之Quantization & Binarization方向论文阅读笔记

最新推荐文章于 2025-03-10 14:38:34 发布

cokeonly

最新推荐文章于 2025-03-10 14:38:34 发布

阅读量4.6k

点赞数 1

分类专栏：深度学习模型压缩文章标签：深度学习压缩

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cokeonly/article/details/79105925

版权

本文是关于深度学习模型压缩的论文阅读笔记，重点探讨了Binarized Neural Networks和Low Precision量化技术。论文提出了对权重和激活函数进行二值化的方法，包括确定性和随机性策略，并解决了二值化导致的梯度问题。此外，还讨论了针对ReLU的低精度量化，如Half-wave Gaussian Quantization，以及在前后向传播中的处理方式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

深度学习-模型压缩之Quantization & Binarization方向论文阅读笔记

论文：Binarized Neural Networks: Training Neural Networks with Weights and Activations Constrained to +1 or 1

Weight and Activation
首先，该论文主要把weight和激活函数结果activation在训练时都做了二元化操作。具体来说，文章介绍了两种binarization方法，确定法（deterministic）和随机法（stochastic）:
- deterministic：给定x，若x > 0，返回+1，反之返回-1。
- stochastic：根据x的值，计算返回+1的概率p，在做二元化操作时，以p为概率返回1，反之返回-1。具体p的计算公式为 $\sigma(x) = clip(\frac{x + 1}{2}, 0, 1) = max(0, min(1, \frac{x + 1}{2})))$
这里有一个例外，就是input layer，它的输出通常是image信息，文中并没将其binarized。
Gradient
- gradient在实现中保留了浮点数的形式，原因应该是为了保证SGD的有效。
- 在计算gradient时，会对weights和activations加一些noise以增加generalization。（待定，看论文公布的实现再确认）
Propagation
- 因为前向的时候相当于是对weight和activation求了个sign函数，而sign()的导数几乎处处为0，这显然没法用到后向的计算中，因此需要找到一个sign函数导数的估计。
- 论文中选择的是 1

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。