量化技术介绍

Ref:https://zhuanlan.zhihu.com/p/548174416

Ref:https://zhuanlan.zhihu.com/p/430470397

 

 为什么做压缩?

介绍压缩方法之一:量化;

        量化(quantization)是模型压缩的一种常用方法,通常情况下可以使用不同的量化策略,将深度学习模型参数与运算的精度从浮点数(FP32)降低至较低的精度,如INT8,一方面可以提升模型在cpu/gpu等硬件的推理计算效率,减少计算成本,另一方面能够减小模型的size,在边缘设备具有存储优势。现在无论是服务器端或者是移动端,支持INT8量化都是一个发展趋势;

        量化是一个信息有损压缩的过程,如果训练过程中使用FP32,在模型推理时使用Post-training Quantization(PTQ)直接量化为INT8模型,模型精度会存在一定损失。而量化感知训练(Quantization-aware-training, QAT)在模型训练过程中就引入了伪量化(Fake-quantization)来模拟量化过程中带来的误差,通过这种方式能够进一步减少量化后模型的精度损失。

        

  • 4
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值