本篇文章主要创新点在于不仅仅提供了对activation 和weights的量化,还通过同样的方式,对gradient和error进行了量化。将模型的量化做的更加深入。
这篇文章主要分为两块,第一块是知识铺垫,第二块是四个量化
知识铺垫
MACs(矩阵乘法)会导致量化bit增加
K指量化的bit数。这个图比较难理解的地方在于右边。 [ k E + k A − 1 ] [k_{E}+k_{A}-1] [kE+kA−1] 和 [ k E + k w − 1 ] [k_{E}+k_{w}-1] [kE+kw−1]是怎么得到的。
其实就是根据bp 过程分析出来的。以第一个为例,
根据这个公式,其中 a k l − 1 a_{k}^{l-1} a