量化方法总结（1）

最新推荐文章于 2024-06-20 09:41:34 发布

许多天的rua

最新推荐文章于 2024-06-20 09:41:34 发布

阅读量6.9k

点赞数

分类专栏：量化

本文链接：https://blog.csdn.net/qq_18053809/article/details/93595366

版权

本文介绍了量化模型的不同方面，包括post training quantization与quantization aware training的对比，以及二值化、三值化和bit-shifts等精度分类。还讨论了量化映射的两种情况和梯度更新策略，同时指出大部分工作在处理bn时的局限性。

摘要由CSDN通过智能技术生成

从training和inference模型是否一致来看，可细分为：

post training quantization。在训练时不做quantization，inference时将所有需要quantization的地方做量化。这种做法往往对accuracy损失较大
quantization aware training。在训练时做quantization，但对quantization的地方要同时保留原有精度，以便于梯度更新。在inference时只保留量化后的结果。这种做法效果往往要好于第一种。
training与inference时模型一致。这种做法目前只见过一例（WAGE）。需要保证梯度更新时能直接更新在量化后的weights上。

从quantization的精度来看，可细分为：

二值化
三值化
bit-shifts。用两个整数来记录任何一种精度。其中一个整数是 $2^{n}$ 的指数位，另一个是扩大 $2^{n}$ 倍的浮点数的整数位Int。然后用 $\frac {Int}{2^{n}}$ 来表征任何一种精度

从quantization的映射情况看，可细分为：

关注

专栏目录