PACT: PARAMETERIZED CLIPPING ACTIVATION FOR QUANTIZED NEURAL NETWORKS

最新推荐文章于 2021-11-16 17:28:21 发布

JachinMa

最新推荐文章于 2021-11-16 17:28:21 发布

阅读量1.4k

点赞数 2

本文链接：https://blog.csdn.net/JachinMa/article/details/104015086

版权

本文提出PACT方法，为量化神经网络的激活函数引入可学习的截断参数α，有效平衡精度与复杂度。在低比特量化下，PACT优于当时其他模型，并在4bit时逼近全精度性能。通过实验，作者证明了α的学习对提升量化网络性能的重要性，并探讨了量化对第一层和最后一层的影响。

摘要由CSDN通过智能技术生成

本文的主要贡献有三点：
1、提出了pact方法，它给激活函数设定了一个可学习的α截断参数。
2、在2bit以下，它的效果比所有当时的模型都好；4bit的精度接近单精度的表现。
3、它可以提供一种平衡模型精度和复杂度的方法。

量化权重相当于是将权重的损失函数的假设空间离散化，因此可以通过训练来弥补由量化导致的误差，但传统的激活函数却并没有任何可训练参数，因此不能这样做。

ReLU已经成为现在最为流行的激活函数之一了，但它的问题是，它没有上界，因此很难用低位数据来表示它。作者用resnet20在cifar10上做了实验，证明对ReLU的量化会导致严重的精度下降：
在这里插入图片描述
通过使用一个截断的激活函数已经被证明可以有效地减轻这个问题，但是如何获得合适的截断位置还是一个难题。另外，从fig1的右边可以看出，即使是使用了截断的量化ReLU函数，其验证误差还是明显比baseline要高。

这个问题被半波高斯量化方法部分地解决了：他们观察到在BN层后的激活层接近均值为零，单位方差的高斯分布（这里我不理解，BN层后面要接一个平移和拉伸的操作，那分布就不应该是这种。如果不是写错了，那就是BN的这种平移和拉伸的操作对分布的影响很小）。他们使用Lloyd算法来寻找这种高斯分布的最佳量化尺度并应用于网络的所有层。但这种方法的问题在于，它没有利用学习的威力。

基于以上的想法，作者提出了PACT方法：