【NeurIPS2024】作为零样本无损梯度压缩器的语言模型:走向通用神经参数先验模型...

9d9e25983bd18eb07ec2bd1839e80a7f.png

来源:专知
本文约1000字,建议阅读5分钟
我们引入了一种新的方法 LM-GC,它将 LLMs 与算术编码结合。

21754ab25f81ed8633935c55d5e4a50c.png

尽管统计先验模型在各个领域得到了广泛应用,但对于神经网络梯度的此类模型长期以来却被忽视。其固有的挑战在于高维结构和复杂的相互依赖性,使得有效建模变得复杂。在本研究中,我们展示了大型语言模型(LLMs)在零样本设置中作为梯度先验的潜力。我们通过考虑无损梯度压缩这一分布式学习中的关键应用来检验这一特性,该应用高度依赖于精确的概率建模。为此,我们引入了一种新的方法 LM-GC,它将 LLMs 与算术编码结合。我们的方法将普通梯度转换为类似文本的格式,相比原始表示,令符效率提高了多达 38 倍。我们确保这种数据转换与普通梯度的结构以及 LLMs 通常识别的符号保持紧密一致。实验表明,LM-GC 超越了现有的最先进的无损压缩方法,在各种数据集和架构中压缩率提升了 10% 到 17.2%。此外,我们的方法与有损压缩技术(如量化和稀疏化)表现出良好的兼容性。这些研究结果突显了 LLMs 在有效处理梯度方面的巨大潜力。源码将在论文发表后发布。

e87da53b9a10b9ea22fd6e3a8c39a4df.png

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

92fa3058ef10cdc3bd76640c1642647b.png

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值