AI模型线性量化与加速

这也不能运行是吧

已于 2023-06-17 11:06:22 修改

阅读量417

点赞数 1

文章标签：深度学习人工智能边缘计算 Powered by 金山文档

于 2023-03-20 14:25:12 首次发布

本文链接：https://blog.csdn.net/qq_43805944/article/details/129666724

版权

文章介绍了模型量化的背景，包括数据格式和常用的数据类型。量化技术主要包括训练后量化（PTQ）和量化感知训练（QAT），并提到英伟达的TensorRT作为成熟的量化工具。线性量化的过程和数学表达式被详细阐述，以及如何确定量化参数和阈值。权重和激活值的量化策略有所不同，权重通常使用静态范围，而激活值可能需要动态校准集。

摘要由CSDN通过智能技术生成

模型量化

背景

AI计算的数据格式

计算机采用0/1来标识信息，每个0或每个1代表一个比特/二进制位（bit），信息一般以三种形式表示：

字符串，最小单元是char，占8个比特（bit, 简写b）内存，等于1个字节（Byte, 简写B）。1字节=8bit=8b。

整数INT（Integer），INT后面数值表示该整数类型占用内存的比特位数，常用INT8、INT16、INT32、INT64

浮点数PF（Floating points），PF后面数值也代表该浮点类型占用内存的比特位数，常用FP16（半精度）、FP32（单精度）和FP64（双精度）。

量化技术

常用两种量化方法，训练后量化PTQ（Post training quantization）和量化感知训练QAT（Quantize-aware training）。PTQ是在模型经过训练后进行的，但一般PTQ精度达不到要求，就会考虑使用QAT。在量化过程中会产生数据溢出和精度不足舍入错误，会混合使用单精度和半精度数据格式，优势是压缩模型大小，但因为模型结构和参数没有发生变化，再加上不同精度需要进行对齐运算，反而会导致计算速度降低，针对这种场景，英伟达GPU有专门的计算单元（Tensor Core等），完成单指令混合精度运算，提升计算速度。

量化工具

随着量化技术发展和成熟，已经有很成熟的软件工具，其中包括了英伟达的TensorRT。TensorRT是英伟达开发的深度学习推理引擎（GPU Inference Engine），是一套从模型获得，到模型优化与编译，再到部署的完整工具。模型获得支持Tensorflow、Pytorch、Caffe等主流训练框架，在模型优化与编译过程中，已经支持混合精度、PTQ和QAT量化训练，最终将训练好的模型部署于嵌入端、云端、以及汽车上的硬件平台上运行。

线性量化

常用的线性量化过程可以使用以下数学表达式表示：

Q = clamp(Round(R/S+Z))=Q_{max},R \in float 且R>T_{max} \

Q = clamp(Round(R/S+Z))=Round(R/S+Z).R\in float且T_{min}<R<T_{max} \

Q = clamp(Round(R/S+Z))=Q_{min},R\in float且R<T_{min} \

R=(Q-Z)*S

其中，Q表示量化后的定点数，R表示量化前的浮点数，Z就是zero_point，即浮点数映射到定点之后，浮点0所对应的定点值。S就是scale，即缩放尺度。Round()函数就是四舍五入。clamp()函数的作用是把一个值限制在一个上限和下限之间。Tmax表示浮点数的最大阈值，Tmin表示浮点数的最小阈值。Qmax表示定数的最大值，Qmin表示定点数的最小值。

通过换算可以得到阈值和线性映射参数 S 和 Z 的数学关系，在确定了阈值后，也就确定了线性映射的参数。

S=(T_{max}-T_{min})/(Q_{max}-Q_{min})\

Z=Q_{max}-T_{max}/S