本文提出了一种通过减小量化误差来获得更好量化效果的自适应MBN(Multi-bit Networks)方法。
MBN方法,简单来说,是基于这样一个观察:网络中各层对量化粒度的敏感程度是不同的。那么假设我们给予的总的bit数不变的基础上,分别给对量化更敏感的层更多的bit数,较不敏感的层更少的bit数,从而达到更好的精度。
本文在这个思想上做出了改进:首先它优化的目标不是网络的损失,而是引入的量化误差,它的好处在于可以更好地修改赋予各层的bit数。其次它引入了剪枝方法,依次剪掉一些不必要的参数,从而可以减少分配给这些参数的bit数。
结果很夸张:
这里IW代表平均每个参数的bit数。