先回顾论文的思想,再进一步讨论改进,本方法我进行了复现,但是没有将卷积乘法改成int型乘法,因为服务器没法做:
1、本方法属于线性量化,如下式,q是fp32的r的量化后的值:
将最小值也做了对应的量化(zero-point)。
- 讨论矩阵乘法的整形运算(我觉得是本文最精华的地方)
流程如下式所示,式2->式3->式4->式5:
由上可知,除了M以外,全部是整数,同时,我们进一步的将乘以M这
先回顾论文的思想,再进一步讨论改进,本方法我进行了复现,但是没有将卷积乘法改成int型乘法,因为服务器没法做:
1、本方法属于线性量化,如下式,q是fp32的r的量化后的值:
将最小值也做了对应的量化(zero-point)。
流程如下式所示,式2->式3->式4->式5:
由上可知,除了M以外,全部是整数,同时,我们进一步的将乘以M这