Int8量化

Int8量化

int8量化是利用int8乘法替换float32乘法实现性能加速的一种方法

  1. 对于常规模型有:y = kx + b,此时x、k、b都是float32, 对于kx的计算使用float32的乘法
  2. 对于int8模型有:y = tofp32(toint8(k) * toint8(x)) + b,其中int8 *int8结果为int16
  3. 因此int8模型解决的问题是如何将float32合理的转换为int8,使得精度损失最小(大家都提出了很多方法,比如KL散度,重新训练等,目的就是为了使得损失的精度最小)
  4. 也因此,经过int8量化的精度会受到影响

Int8量化步骤(指在tensorRT实现int8量化)

  1. 配置setFlag nvinfer1::BuilderFlag::kINT8,告诉编译器,我们的编译模式是int8。
  2. 实现Int8EntropyCalibrator类并继承自IInt8EntropyCalibrator2。继承了IInt8EntropyCalibrator2这个类过后,重写覆盖它的一些函数,然后通过系统调用这些函数来实现跟你的交互和通信。
  3. 实例化Int8EntropyCalibrator并且设置到config.setInt8Calibrator。这个时候就关联上了,它就可以去调用第二步中重写的那些函数了。
  4. Int8EntropyCalibrator的作用,是读取并预处理图像数据作为输入。
    • 标定过程的理解:对于输入图像A,使用FP32推理后得到P1再用INT8推理得到P2,调整int8权重使得P1与P2足够的接近
    • 因此标定时需要使用一些图像,正常发布时,使用100张图左右即可

Int8EntropyCalibrator类主要关注

  1. 通过getBatchSize函数,告诉引擎,这次标定的batch是多少
  2. 通过getBatch函数,告诉引擎,这次标定的输入数据是什么,把指针赋值给bindings即可,返回false表示没有数据了
  3. 通过readCalibrationCache函数,若从缓存文件加载标定信息,则可避免读取文件和预处理,若该函数返回空指针则表示没有缓存,程序会重新通过getBatch重新计算
  4. 通过writeCalibrationCache函数,当标定结束后,会调用该函数,我们可以储存标定后的缓存结果,多次标定可以使用该缓存实现加速

refer:int8类型

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值