A Survey of Quantization Methods for Efficient Neural Network Inference--2021年
- Abstract
- I. INTRODUCTION
- 二、量化的一般历史(GENERALHISTORY OF QUANTIZATION)
- III. 量化的基本概念----BASICCONCEPTS OFQUANTIZATION
-
- A. Problem Setup and Notations----问题设置和注释
- B. Uniform Quantization---均匀量化
- C. Symmetric and Asymmetric Quantization---对称量化和非对称量化
- D.Range Calibration Algorithms: Static vs Dynamic Quantization----距离校准算法:静态与动态量化
- E. Quantization Granularity---量化粒度
- F . Non-Uniform Quantization---非均匀量化
- G.Fine-tuning Methods---微调方法
-
- 1) Quantization-Aware Training:
- 总结(QAT)。尽管与STE近似,QA T仍被证明有效。然而,QA T的主要缺点是重新训练神经网络模型的计算成本。这种重新训练可能需要执行几百个时代才能恢复精度,尤其是对于低比特精度量化。如果量化模型将在较长时间内部署,并且如果效率和准确性特别重要,那么这种再培训投资可能是值得的。然而,情况并非总是如此,因为有些型号的寿命相对较短。接下来,我们将讨论一种没有这种开销的替代方法。
- 2) Post-Training Quantization:
- 总结(PTQ)。在PTQ中,所有的权值和激活量化参数都是不需要再训练而确定的。因此,PTQ是一种非常快速的神经网络模型量化方法。然而,与QAT相比,这往往以较低的准确性为代价。
- 3) Zero-shot Quantization:
- 总结(ZSQ)。零拍(也称为无数据)量化在不访问训练/验证数据的情况下执行整个量化。这对于机器学习即服务(MLaaS)提供商尤其重要,他们希望加快客户工作负载的部署,而无需访问他们的数据集。此外,对于安全或隐私问题可能会限制访问训练数据的情况,这一点很重要。
- H. Stochastic Quantization---随机量化
- 四、 ADVANCEDCONCEPTS: QUANTIZATIONBELOW8 BITS----高级概念:8位以下的量化
- 五、 QUANTIZATION ANDHARDWAREPROCESSORS---量化和硬件处理器
- 六、 FUTUREDIRECTIONS FORRESEARCH IN QUANTIZATION---量化研究的未来方向
- 七. SUMMARY ANDCONCLUSIONS---总结和结论
- 什么是模型量化?以及量化知识点集合
Abstract
1、一旦抽象的数学计算适应于数字计算机上的计算,这些计算中数值的高效表示、操作和通信的问题就出现了。
2、强烈相关的数值表示的问题是量化的问题:应该以什么方式一组连续的实值数字分布在一个固定的离散的数字最小化所需的位数也最大化伴随计算的准确性?
3、当内存和/或计算资源受到严重限制时,这种长期存在的量化问题尤其相关,3、由于神经网络模型在计算机视觉、自然语言处理和相关领域的显著表现,它近年来成为了前沿。==
4、从浮点表示到以4位或更少表示的低精度固定整数值,有可能将内存占用和延迟减少16倍;事实上,在这些应用程序中经常实现减少4x到8x。
5、因此,量化最近作为有效实现与神经网络相关的计算的一个重要和非常活跃的研究子领域出现也就不