后处理量化(Post-training Quantization)是指在模型训练完之后,直接对权重做量化,不需要重新训练模型或者用数据去Finetune。这种方式的优点是泛化性比较好,不依赖于特定的网络结构和数据,任何模型都可以使用。
2018年谷歌的量化白皮书Quantizing deep convolutional networks for efficient inference_A whitepaper对模型做了int8量化,量化的方式比较简单,但有很多实验结果可以参考,有mobilenet的量化结果。
2019年,高通的Data-Free Quantization Through Weight Equalization and Bias Correction这篇文章说神经网络不同通道的权重分布差异很大,所以不能采用相同的量化参数。该文的方法是基于Relu的数学性质,通过一个scale强行把各个通道的权重分布均衡到相同。另外,量化后会引入偏差,即激活值的分布与量化前有差异。这篇通过对权重分布、激活值的分布的分析,寻找为什么有些模型如Mobilenet量化后精度损失大的原因,思路合理。