摘要:这种方式可以使得所有数字均量化至8-bit,同时表示为SWALP任意收敛于二次目标的最优解,在强凸条件下使噪声球渐近小于低精度SGD。
SWALP的处理将梯度累加模块也变为8-bit
(Stochastic Weight Averaging)SWA的介绍:
https://blog.csdn.net/leviopku/article/details/84037946
多次求平均值,SWA的方式可以采用高学习率以及忽略噪声。对比对象:全精度SGD
做出以下贡献:
1.一种方法对包括梯度累加部分在内的所有数均采用量化的方式。
2.证明了SWALP低精度收敛比低精度SGD小
3.在VGG16和PreResNet-164上对CIFAR-10和CIFAR100做结果证明
量化方法: