量化的目标 把神经网络运算的32浮点表示的权重,变成8为的Int整数,并且希望没有显著的准确率下降 为什么要采用In8,因为它可以带来更高的吞吐率,并且更少的内存占用 但是也面临挑战,Int8有更低的精度,并且有更小的动态范围 如何保证量化后的准确率呢,解决方案 : 对Int8量化后的模型权重和激活函数,进行最小化信息损失。 Tensor RT采用的方法,不需要额外的fine tuning 或重新训练。 In8推理 挑战 INT8 相对于FP32具有较低的精度和动态范围 从表中可以看出32位浮点,16位浮点,INT8 的动态范围有很大的不同,比如16位点是-65504 ~ +65504