Extreme Compression of Large Language Models via Additive Quantization

本文是LLM系列文章,针对《Extreme Compression of Large Language Models via Additive Quantization》的翻译。

通过加法量化对大型语言模型进行极端压缩

摘要

准确的开放大型语言模型 (LLM) 的出现导致了对高性能量化技术的竞争,这些技术可以在最终用户设备上执行它们。在本文中,我们从多码簿量化 (MCQ) 中经典方法的角度重新审视了“极端”LLM 压缩问题,定义为针对极低的位数,例如每个参数 2 到 3 位。我们的算法称为 AQLM,它推广了用于信息检索的经典加法量化 (AQ) 方法,通过两项创新来推进 LLM 压缩的最新技术:1) 以输入自适应方式学习权重矩阵的加法量化,以及 2) 每个transformer模块的码本参数的联合优化。从广义上讲, AQLM 是第一个在压缩到每个参数小于 3 位的精度与模型大小方面是帕累托最优方案的方案,并且显著改进了极端压缩 (2bit) 方案中所有已知的方案。此外,AQLM 很实用:我们提供 AQLM 的快速 GPU 和 CPU 实现来生成token,这使我们能够在速度上匹配或超越优化的 FP16 实现,同时以更小的内存占用执行。

1 引言

2 背景和相关

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值