单卡搞定Llama 3.1 405B，让大模型轻松瘦身！超强压缩工具包来了

PaperWeekly

于 2024-08-11 22:15:43 发布

阅读量94

点赞数

文章标签： llama

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247677326&idx=3&sn=a3a3d1c2afacb365d64d6344de9f105e&chksm=97490a32dab098f4f5be104fc255f90ed6ae4d77ad3dc7d586973c4ca25774d40855a1fe1d73&scene=126&sessionid=0

版权

©作者 | 模型工具链团队

来源 | 量子位 QbitAI

单卡搞定 Llama 3.1（405B），最新大模型压缩工具来了！

最近 Llama-3.1 登上开源顶峰，但其最强的 405B 版本模型 900 多 GB 的内存需求，对资源构成了更加苛刻的挑战。

北航、商汤、南洋理工等团队联合推出的大模型压缩工具与基准 LLMC，能很好解决这一问题。它使得一张 80G A100 即可完成 Llama 3.1 405B 的校准和评估，从而实现以超低成本进行量化。它支持多种压缩算法、模型和推理后端，具有强大的扩展性和全方位的评估能力。

论文标题：

LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit

论文地址：

https://arxiv.org/abs/2405.06001

工具地址：

https://github.com/ModelTC/llmc

Llama 3.1 更大也更难压缩

低比特量化是解决资源受限问题的通用技术之一。为此，相关研究人员运用了 LLMC 对 Llama 3.1 进行了量化压缩。

结果如表 1 所示，采用 LLMC 中的某些算法，例如 QuaRot 和 AWQ 等算法在 70B 和 405B 参数量的模型上，均能有效保持量化精度。而最为简单的“四舍五入”（Naive）算法在这些大规模模型上则表现出显著的精度下降，特别是在激活被量化的情况下。

该研究团队发现，Llama 3.1 系列模型的量化精度下降现象，源于其激活张量中存在一些相比其他模型更显著的离群值或异常值（outliers）。随着 Llama 3.1 模型体积的增大，这些离群值的现象更加严重。离群值是指在数据中某些数值与其他数值相比差异较大的点，是影响量化精度的关键因素之一。

借助 LLMC 工具，研究团队对 Llama 3.1 系列模型（8B、70B、405B）的第一个 block 的 4 层（q_proj、o_proj、gate_proj、down_proj）输入激活张量进行了可视化（如图 1-3 所示）。每个子图底部展示了该层激活值的所有 token 的 Kurtosis 值的平均值和标准差。

由图 1-3 可以发现，在 Llama 3.1 系列的模型中，激活张量的一些 channel 中存在 outlier，而且在越大的模型中，这个现象更明显。因此，可以合理推断：Llama 3.1 405B 模型虽然变强了，但也变得更加“异常”，更难被量化。

LLMC 工具中支持一系列关于抑制大模型异常值的量化算法，包括 AWQ、SmoothQuant、OS+、QuaRot 等。由表 1 可以看到，这些方法通过有效抑制 outlier，大大提升了 Llama 3.1 的量化精度。例如，在 405B 模型 W8A8 量化上，SmoothQuant、OS+、QuaRot 几乎可以取得与浮点模型相当的精度表现。

LLMC：一站式大模型瘦身工具包

▲ LLMC框架图

支持多种算法。LLMC 支持多种压缩算法，包括 16 种不同的量化方法，涵盖仅权重、权重激活和混合精度量化。这种多样性允许对不同方法进行公平比较和深入分析。当然除了量化，目前还支持各种类型的稀疏以及相关算法。

▲ LLMC目前支持的部分硬件友好压缩算法分类

精度高度对齐。LLMC 团队进行了若干对齐实验，比较了几种已建立的量化算法（LLMC 与原始论文/代码）。

实验设置与原始论文中的设置或其开源代码的默认设置相同（如表 3 所示）。这些实验结果总结在表 4-6 中。表中的结果表明，LLMC 工具在性能上几乎与文献中报道的原始量化算法一致。通过这些实验，证明了 LLMC 不仅有效，而且在重现现有量化方法的结果方面也是可靠的。这确保了该工具对 LLM 量化研究的贡献是可信且有价值的。