量化总结1-Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference

本文探讨了一种线性量化方法,通过整数运算替代浮点运算以优化神经网络的效率。核心在于将矩阵乘法转化为整数运算和移位操作,减少了计算复杂度。量化训练过程中,权重和激活值的量化策略不同,权重采用最大最小值,而激活值使用EMA计算。在不包含BN层和包含BN层的情况下,分别展示了量化流程,并指出在特定情况下可以避免不必要的量化反量化操作以提高效率。此外,文章讨论了仅量化权重不量化激活的策略,以及在前向推理时BN层融合的处理方式。
摘要由CSDN通过智能技术生成

先回顾论文的思想,再进一步讨论改进,本方法我进行了复现,但是没有将卷积乘法改成int型乘法,因为服务器没法做:

1、本方法属于线性量化,如下式,q是fp32的r的量化后的值:

 

 

将最小值也做了对应的量化(zero-point)。

  1. 讨论矩阵乘法的整形运算(我觉得是本文最精华的地方)

流程如下式所示,式2->式3->式4->式5:

 

由上可知,除了M以外,全部是整数,同时,我们进一步的将乘以M这

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值