本文是对当前量化方法的一个总结。
量化设计
统一仿射量化
它将浮点数量化到(0,Nlevel-1),这里Nlevel是2的bit次方。

对cnn来说,卷积操作变为:

这种方法在推断时能够取得更快的速度,因为它的激活值求和以及权重值都是常量。
统一对称量化

随机量化

随机量化是将量化器视作一个round操作内的加性噪音,因为很多硬件并不支持随机采样,因此它往往并不在推断时使用。
Note that in expectation,the stochastic quantizer reduces to a pass-through of the floating point weights, with saturation for values outside the range. (没看懂)因此用它来计算梯度效果很好。

本文探讨了深度学习模型的量化方法,包括统一仿射量化、对称量化和随机量化。量化设计在推断时能提高速度,特别是在卷积操作中。量化参数选择考虑了量化粒度,通常对权重和激活值使用不同参数。在量化推断中,前向训练量化和BN层量化策略被提出,其中量化激活值和权重的组合方式影响模型性能。对于BN层,作者提出了一种解决量化时振荡的策略。低位网络的量化效果可能较差,但通过调参可以改善。
最低0.47元/天 解锁文章
1650

被折叠的 条评论
为什么被折叠?



