OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Model(2308.13137)爱豆包版

1.问题与解决内容

遇到的问题
  • LLM 部署的资源瓶颈:LLM(如 GPT-3)的内存占用高达 350G,计算需求庞大,边缘设备难以支持。

  • 低比特量化的性能衰减:现有 PTQ 方法(如 GPTQ、AWQ)依赖手工设计量化参数(如缩放因子、迁移强度),在 W2A16、W4A4 等极低比特场景下,量化误差显著,模型困惑度(PPL)骤升(如 GPTQ 在 LLaMA-13B 的 W2A16 量化中 PPL 达 3832)。

  • QAT 与 PTQ 的效率矛盾:QAT 虽精度高,但需 100k 样本和数百 GPU 小时(如 LLM-QAT),而 PTQ 虽高效(如 GPTQ 量化 LLaMA-13B 仅需 1 小时),但低比特时性能不足。

解决内容
  • 提出 OmniQuant 框架:通过可学习权重剪裁(LWC)可学习等价变换(LET),动态优化量化参数,无需微调原始模型,在保持 PTQ 效率的同时,实现低比特量化下的高精度。

  • LWC 自适应调节权重极值:通过可学习参数 γ 和 β 动态调整权重剪裁阈值,降低量化难度,例如在 LLaMA-7B 的 W4A4 量化中,将 PPL 从 14.49 降至 11.26。

  • LET 转移激活量化挑战:通过通道缩放和偏移将激活异常值的量化难度转移到权重,结合块级误差最小化,在 W4A4 量化下使 LLaMA-7B 的零 - shot 任务平均准确率达 52.65%,超越 QAT 方法(LLM-QAT 为 46.43%)。

 图b GPTQ(仅权重)在低比特表现不好 图c SmoothQuant(仅激活值)和OmniQuant

2. 背景

  • LLM 的重要性与挑战:LLM(如 GPT-4、LLaMA)在自然语言处理中表现卓越,但其数十亿至万亿参数量导致训练和推理需海量资源,阻碍实际应用。

  • 量化技术的必要性:量化是压缩 LLM 的核心手段,分为 PTQ(无需训练,效率高)和 QAT

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值