8-BIT OPTIMIZERS VIA BLOCK-WISE QUANTIZATION--通过块级量化的8位优化器

本文提出了一种8位优化器,采用块级动态量化技术,保持了32位优化器的性能,同时显著降低了内存占用。针对非线性量化和动态树量化进行了详细探讨,适用于大规模模型的训练,包括语言建模、图像分类和机器翻译等任务。8位优化器开源,只需修改两行代码即可替换32位优化器,无需调整超参数。
摘要由CSDN通过智能技术生成

在这里插入图片描述

Abstract

      (Stateful optimizers)有状态优化器随着时间的推移保持梯度统计,例如,过去梯度值的指数平滑和(动量SGD)或平方和(Adam)。// 与普通随机梯度下降相比,这种状态可用于加速优化,但使用的内存可能会分配给模型参数,从而限制了在实践中训练的模型的最大大小。// 在本文中,我们开发了第一个使用8位统计信息的优化器,同时保持使用32位优化器状态的性能水平。为了克服由此产生的计算、量化和稳定性方面的挑战,我们开发了块级动态量化。// 分块量化将输入张量分成独立量化的小块。每个块在核之间并行处理,产生更快的优化和高精度量化。为了保持稳定性和性能,我们将块级量化与两个额外的变化相结合:
      (1)动态量化是一种非线性优化的形式,对大大小值都很精确,
      (2)是一种稳定的嵌入层,以减少来自语言模型中输入标记高度不均匀分布的梯度方差。因此,我们的8位优化器保持32位性能的一小部分的内存占用的一系列任务,包括1.5b参数语言建模,灰色微调,ImageNet分类,WM

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

土豆娃potato

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值