量化总结

最新推荐文章于 2024-06-21 11:12:08 发布

喜米苏

最新推荐文章于 2024-06-21 11:12:08 发布

阅读量2.7k

点赞数 1

分类专栏：量化文章标签： 1024程序员节

本文链接：https://blog.csdn.net/w1290027/article/details/109262490

版权

量化专栏收录该内容

2 篇文章 1 订阅

订阅专栏

卷积神经网络量化

一、为什么要量化？

卷积神经由于参数量和计算量太大，无法在移动设备上部署。在深度神经网络模型应用中，量化是削减模型大小的一种常用方法。为什么要削减模型，是因为硬件平台的自身性能不理想，如计算力低，内存、电量消耗等限制，导致模型推断速度慢、功耗高。而定点运算指令比浮点运算指令在单位时间内能处理更多数据，同时，量化后的模型可以减少存储空间。当然，也可以将量化后的模型部署在高效的定制化计算平台上以达到更快的推断速度。

二、量化的好处？

1.正常卷积神网络是浮点32位的，我们可以量化成int8 或者int4（YOLO V2 浮点是12M，量化后为3.8M）；
2.像CNN这种神经网络模型在精度上有很强的鲁棒性,在前向推理的时候用低精度的数值去代替全精度的的浮点数值，最后的准确率还可以接受甚至还会提升模型的泛化能力；
3.8bit量化不仅能够减少计算量，还可以节省面积，增大硬件的并行度。

三、怎样量化？

量化本质上是对数值范围的重新调整，可以大致理解为是一种线性映射，把每一个浮点值一一映射到一个定点值，也就是每一个值都有一个SCALE和零点，靠这两个值用定点模仿前向推理，反向训练得时候还是用的浮点数。
用r表示浮点实数，表示q量化后的定点整数，S表示scale，表示实数和整数之间的比例关系，Z表示零点，表示实数中的 0 经过量化后对应的整数。浮点和整型之间的换算公式为：
在这里插入图片描述

由于卷积网络中的卷积层和全连接层本质上都是矩阵乘法，将浮点运算上的矩阵转换为定点运算:
在这里插入图片描述

假设在这里插入图片描述
由于M通常都是 (0, 1) 之间的实数，因此可以表示成

其中M0是一个定点实数，在区间[0.5,1]之间是非负整数。

四、需要的数据格式：

量化后的模型对于每一层来说有S1（输入），S2（权重），S3（输出）。

1.卷积过程需要的数据格式：

权重A（8bit）和图片B（8bit），bias=C/S1/S2向下去取整（32bit），SCALE因子（32bit），N(右移次数)。
SCALE和N：为了保持精度，让S3不断得乘2让它处于0.5-1.0之间，为了保持精度，然后乘232 得到SCALE（32bit），N就是乘以2的次数。

2.卷积过程数据格式变化：

有图片uint8（A）和权重int8（B）,把它们转换成补码uint16,但是为了和bias(32bit)相加，我们用32位来保留它。

C(32bit)=A*B
32位的结果（C）和bias（D）相加还是32位。
C+D(32bit)=F(32bit)
然后加完bias的结果（F）和SCALE因子相乘得到64bit，直接省掉低32位，得到H（32bit）。
F(32bit)*SCALE(32bit)=G(64bit)
然后H右移N次直接截取低8位。
H>>N=U(8bit)
最后U就是这一层定点结果，如果需要浮点根据转回去即可。

参考：
https://zhuanlan.zhihu.com/p/149659607

喜米苏

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
量化总结

卷积神经网络量化一、为什么要量化？卷积神经由于参数量和计算量太大，无法在移动设备上部署。在深度神经网络模型应用中，量化是削减模型大小的一种常用方法。为什么要削减模型，是因为硬件平台的自身性能不理想，如计算力低，内存、电量消耗等限制，导致模型推断速度慢、功耗高。而定点运算指令比浮点运算指令在单位时间内能处理更多数据，同时，量化后的模型可以减少存储空间。当然，也可以将量化后的模型部署在高效的定制化计算平台上以达到更快的推断速度。二、量化的好处？1.而且正常卷积神网络是浮点32位的，我们可以量化成int8
复制链接

扫一扫

专栏目录