论文总结：Quantizing deep convolutional networks for efficient inference: A whitepaper

最新推荐文章于 2024-01-19 14:18:23 发布

gcf_uinque

最新推荐文章于 2024-01-19 14:18:23 发布

阅读量812

点赞数

本文链接：https://blog.csdn.net/gcf_uinque/article/details/104464660

版权

论文地址：https://arxiv.org/pdf/1806.08342.pdf

主要内容

这篇论文是篇介绍量化的综述，对量化的动机、方法等进行了较为详细的描述。

量化器的设计。作者介绍了三种量化方案：一致仿射量化器、均匀对称量化器和随机量化器。
模型量化的方法。大致可以分为两类：Post Training Quantization(训练后量化)和 Quantization Aware Training(量化感知训练，即训练时量化)。
作者还通过实验对比各种量化方法的优劣，以及其他(没看)。

1.1 Uniform Affine Quantizer

假设把范围为 $X_{min},X_{max}]$ 的浮点型变量量化到范围为 $0,N_{l-1}]的整型值$ (8bit精度，N_l=256)，我们需要2个参数：量化尺度 $\Delta$ 和零点 $z$ 。尺度决定量化步长，浮点数0映射到零点，且无误差(应该是通过round操作对零点进行微调，确保精确量化)。
量化过程如下：
在这里插入图片描述
逆量化：

1.2 Uniform symmetric quantizer

均匀对称量化器是一致均匀量化器的简化版本，即零点 $z = 0$ 的特殊情况。量化过程为：
在这里插入图片描述
逆量化：

1.3 Stochastic quantizer

随机量化器则是加入了一个噪声：
在这里插入图片描述

2.1 Post Training Quantization

训练后量化可分为只量化权重、对权重和激活值均量化。作者通过实验发现
非对称的逐通道量化的精度最高，且在许多网络的精度都接近浮点型网络。
浮点型：
在这里插入图片描述
只量化权重：

量化权重和激活值：

通过上述实验可以得出如下结论：

非对称的逐通道量化的精度最高；
激活值的量化基本不影响网络精度；
模型参数越多，对于量化的鲁棒性越高。

3.2 Quantization Aware Training

训练后量化的精度高于训练时量化。
作者还给出了基于TensorFlow的量化步骤：

使用预训练好的模型(推荐)，或者从头训练；
利用tf.contrib.quantize命令添加量化运算；
训练模型，得到包含量化信息的模型；
利用tf.contrib.lite.toco convert进行模型转换；
利用TFLite interpreter执行模型。

其他

作者还给出了量化BN层的策略以及大量实验，以后有机会再细看。

一些结论

对于训练后量化，可以使用对称逐通道量化作为开始，若精度下降，再考虑微调(在浮点型的checkpoint上继续训练)。
训练时量化的精度与浮点型模型接近，8bit量化时精度差距在5％以内。

gcf_uinque

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
论文总结：Quantizing deep convolutional networks for efficient inference: A whitepaper

论文地址：https://arxiv.org/pdf/1806.08342.pdf主要内容这篇论文是篇介绍量化的综述，对量化的动机、方法等进行了较为详细的描述。量化器的设计。作者介绍了三种量化方案：一致仿射量化器、均匀对称量化器和随机量化器。模型量化的方法。大致可以分为两类：Post Training Quantization(训练后量化)和 Quantization Aware Tra...
复制链接

扫一扫