1 介绍
1.1 int 8量化
int8量化是利用int8乘法替换float32乘法实现性能加速的一种方法
- 1.对于常规的模型有:y=kx+b,此时x,k,b都是float32,对于kx的计算使用float32的乘法
- 2.对于int8模型有:y=tofp32(toint8(k)toint8(x))+b,其中int8int8结果为int 16
- 3 因此int8模型解决的问题是如何将float32合理转换为int8(合理的方法包括:KL散度,重新训练等),使得精度损失最小
- 4 也因此,经过int8量化的精度也会受到影响:官方给出的参考值分类影响比较小1-2个点,检测器可能有3-5个点的降低,这只是参考值,实际情况需要根据自己的测试结果
1.2 int 8量化步骤
Tensorrt里面想要实现int8,主要分为以下4个步骤
- 1.配置setFlag,通过代码 nvinfer1::BuilderFlag::kINT8,
指定BuilderFlag为kINT8
,告诉编译器我们的编译模式是int8 - 2.实现
Int8EntropyCalibrator
类并继承