2022---ICLR---Fixed-point 8bit only Multiplication for Network Quantization--仅需八位定点数乘法的网络量化方法
第一部分:论文翻译
Abstract
神经网络量化是一种很有前途的压缩技术,可以减少内存占用和节省能耗,有可能导致实时推理。然而,量化模型和全精度模型之间存在性能差距。为了减少这种影响,现有的量化方法在进行缩放或反量化推理时需要高精度INT32或全精度乘法。这就需要消耗大量的内存。为了解决这些问题,我们提出了F8Net,这是一种仅由定点8位乘法组成的新型量化框架。为了推导我们的方法,我们首先讨论了不同格式的定点数的定点乘法的优点,并研究了相关的定点数的统计行为。其次,基于统计和算法分析,我们对不同层的权重和激活应用不同的定点格式。我们引入了一种新的算法,在训练过程中自动确定每一层的正确格式。第三,我们分析了以前的量化算法——参数化剪裁激活(PACT)——并使用定点算法对其进行了重新表述。最后,我们结合最近提出的量化微调方法和我们的定点方法来展示我们方法的潜力。我们在ImageNet上为MobileNet V1/V2和ResNet18/50验证了F8Net。我们的方法不仅与使用INT32乘法或浮点算法的现有量化技术相比,而且与