定点浮点神经网络量化_神经网络量化入门--基本原理

最新推荐文章于 2023-08-09 16:47:03 发布

weixin_39820997

最新推荐文章于 2023-08-09 16:47:03 发布

阅读量630

点赞数 1

文章标签：定点浮点神经网络量化

本文链接：https://blog.csdn.net/weixin_39820997/article/details/111822591

版权

本文介绍了神经网络量化的基础知识，包括量化原理、矩阵运算的量化和卷积网络的量化。通过浮点到定点的转换，探讨了如何在定点计算中实现矩阵乘法和卷积运算，为全量化模型的推理过程打下基础。文章还指出，虽然量化通常导致精度损失，但在工业界，特别是TFLite中，线性量化方案被广泛应用。

摘要由CSDN通过智能技术生成

最近打算写一个关于神经网络量化的入门教程，包括网络量化的基本原理、离线量化、量化训练，以及全量化模型的推理过程，最后我会用 pytorch 从零构建一个量化模型，帮助读者形成更深刻的理解。

之所以要写这系列教程，主要是想帮助初次接触量化的同学快速入门。笔者在刚开始接触模型量化时走了很多弯路，并且发现网上的资料和论文对初学者来说太不友好。目前学术界的量化方法都过于花俏，能落地的极少，工业界广泛使用的还是 Google TFLite 那一套量化方法，而 TFLite 对应的大部分资料都只告诉你如何使用，能讲清楚原理的也非常少。这系列教程不会涉及学术上那些花俏的量化方法，主要是想介绍工业界用得最多的量化方案 (即 TFLite 的量化原理，对应 Google 的论文 Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference )

话不多说，我们开始。这一章中，主要介绍网络量化的基本原理，以及推理的时候如何跑量化模型。

背景知识

量化并不是什么新知识，我们在对图像做预处理时就用到了量化。回想一下，我们通常会将一张 uint8 类型、数值范围在 0~255 的图片归一成 float32 类型、数值范围在 0.0~1.0 的张量，这个过程就是反量化。类似地，我们经常将网络输出的范围在 0.0~1.0 之间的张量调整成数值为 0~255、uint8 类型的图片数据，这个过程就是量化。所以量化本质上只是对数值范围的重新调整，可以「粗略」理解为是一种线性映射。(之所以加「粗略」二字，是因为有些论文会用非线性量化，但目前在工业界落地的还都是线性量化，所以本文只讨论线性量化的方案)。

不过，可以明显看出，反量化一般没有信息损失，而量化一般都会有精度损失。这也非常好理解，float32 能保存的数值范围本身就比 uint8 多，因此必定有大量数值无法用 uint8 表示，只能四舍五入成 uint8 型的数值。量化模型和全精度模型的误差也来自四舍五入的 clip 操作。

这篇文章中会用到一些公式，这里我们用

表示浮点实数，

表示量化后的定点整数。浮点和整型之间的换算公式为：

其中，

是 scale，表示实数和整数之间的比例关系，

是 zero point，表示实数中的 0 经过量化后对应的整数，它们的计算方法为：

、

分别是

最低0.47元/天解锁文章

weixin_39820997

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
定点浮点神经网络量化_神经网络量化入门--基本原理

最近打算写一个关于神经网络量化的入门教程，包括网络量化的基本原理、离线量化、量化训练，以及全量化模型的推理过程，最后我会用 pytorch 从零构建一个量化模型，帮助读者形成更深刻的理解。之所以要写这系列教程，主要是想帮助初次接触量化的同学快速入门。笔者在刚开始接触模型量化时走了很多弯路，并且发现网上的资料和论文对初学者来说太不友好。目前学术界的量化方法都过于花俏，能落地的极少，工业界广泛使用的还...
复制链接

扫一扫