2021: 8-BIT OPTIMIZERS VIA BLOCK-WISE QUANTIZATION---通过块级量化的8位优化器---待续!!!
Abstract
(Stateful optimizers)有状态优化器随着时间的推移保持梯度统计,例如,过去梯度值的指数平滑和(动量SGD)或平方和(Adam)。// 与普通随机梯度下降相比,这种状态可用于加速优化,但使用的内存可能会分配给模型参数,从而限制了在实践中训练的模型的最大大小。// 在本文中,我们开发了第一个使用8位统计信息的优化器,同时保持使用32位优化器状态的性能水平。为了克服由此产生的计算、量化和稳定性方面的挑战,我们开发了块级动态量化。// 分块量化将输入张量分成独立量化的小块。每个块在核之间并行处理,产生更快的优化和高精度量化。为了保持稳定性和性能,我们将块级量化与两个额外的变化相结合:
(1)动态量化是一种非线性优化的形式,对大大小值都很精确,
(2)是一种稳定的嵌入层,以减少来自语言模型中输入标记高度不均匀分布的梯度方差。因此,我们的8位优化器保持32位性能的一小部分的内存占用的一系列任务,包括1.5b参数语言建模,灰色微调,ImageNet分类,WM