【部署加速】模型Int8量化

最新推荐文章于 2024-09-27 09:53:03 发布

超级无敌陈大佬的跟班

最新推荐文章于 2024-09-27 09:53:03 发布

阅读量2.3k

点赞数 1

分类专栏： Deep Learning

本文链接：https://blog.csdn.net/chen1234520nnn/article/details/118543638

版权

34 篇文章 8 订阅

订阅专栏

2. 为什么用量化？

3. 为什么不直接训练低精度的模型？

一个训练好的深度学习模型，其数据包含了权重（weights）和偏移（biases）两部分，在其进行前向推理（forward）时，中间会根据权重和偏移产生激活值（activation）。

INT8的量化原理简单介绍：

TensorRT在进行INT8量化时：1）对权重直接使用了最大值量化)；2）对偏移直接忽略；3）对前向计算中的激活值的量化是重点；
对激活值进行INT8量化采用饱和量化：因为激活值通常分布不均匀，直接使用非饱和量化会使得量化后的值都挤在一个很小的范围从而浪费了INT8范围内的其他空间，也就是说没有充分利用INT8（-128~+127）的值域；而进行饱和量化后，使得映射后的-128~+127范围内分布相对均匀，这相当于去掉了一些不重要的因素，保留了主要成分。

英伟达官方PPT中对于偏移（biases）的处理：直接忽略掉，未明确原因。

非饱和量化（左图）和饱和量化（右图）

图1. 非饱和量化（左图）和饱和量化（右图）

权重没必要使用饱和映射，因为没啥提高，而激活值使用饱和映射能调高性能；
权重通常分别较为均匀直接最大值非饱和映射和费劲力气找阈值再进行饱和映射，其量化后的分布很可能是极其相似的；
激活值分布不均，寻找一个合适的阈值进行饱和映射就显得比较重要了；
图1显示直接使用最大值量化到INT8和选择一个合适的阈值后饱和地量化到INT的区别，可以看出：右图的关键在于选择一个合适的阈值T，来对原来的分布进行一个截取，将-T~+T之间的值映射到-128~+127，而>T和<-T的值则忽略掉。

NVIDIA选择了KL散度也即相对熵来对量化前后的激活值分布进行评价，来找出使得量化后INT8分布相对于原来的FP32分布信息损失最小的那个阈值。

INT8量化流程：

下面是网上的一张步骤图：

INT8量化需要准备哪些东西(tensorrt)：

校准过程我们是不用参与的，全部都由TensorRT内部完成，但是，我们需要告诉校准器如何获取一个batch的数据，也就是说，我们需要重写校准器类中的一些方法。下面，我们就开始介绍如何继承原校准器类并重写其中的部分方法，来获取我们自己的数据集来校准我们自己的模型。

TensorRT 提供3种校准器 IInt8Calibrator 的实现：

下面使用的是第二种。

1）我们需要创建IInt8Calibrator接口以提供校准数据和辅助函数来读写校准表。

2）我们创建的接口是继承tensorrt中的父类—trt.IInt8EntropyCalibrator2，并重写他的一些方法：get_batch_size, get_batch, read_calibration_cache, write_calibration_cache。

get_batch_size:获取batch大小;
get_batch:获取一个batch的数据;
read_calibration_cache:将校准集写入缓存;
write_calibration_cache:从缓存读出校准集。
前两个是必须的，不然校准器不知道用什么数据来校准，后两个方法可以忽略（一般也要写，包含数据预处理操作，和模型推理时保持一致），但当你需要多次尝试时，后两个方法将很有用，它们会大大减少数据读取的时间！