©作者 | 模型工具链团队
来源 | 量子位 QbitAI
单卡搞定 Llama 3.1(405B),最新大模型压缩工具来了!
最近 Llama-3.1 登上开源顶峰,但其最强的 405B 版本模型 900 多 GB 的内存需求,对资源构成了更加苛刻的挑战。
北航、商汤、南洋理工等团队联合推出的大模型压缩工具与基准 LLMC,能很好解决这一问题。它使得一张 80G A100 即可完成 Llama 3.1 405B 的校准和评估,从而实现以超低成本进行量化。它支持多种压缩算法、模型和推理后端,具有强大的扩展性和全方位的评估能力。
论文标题:
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit
论文地址:
https://arxiv.org/abs/2405.06001
工具地址:
https://github.com/ModelTC/llmc
Llama 3.1 更大也更难压缩
低比特量化是解决资源受限问题的通用技术之一。为此,相关研究人员运用了 LLMC 对 Llama 3.1 进行了量化压缩。
结果如表 1 所示,采用 LLMC 中的某些算法,例如 QuaRot 和 AWQ 等算法在 70B 和 405B 参数量的模型上,均能有效保持量化精度。而最为简单的“四舍五入”(Naive)算法在这些大规模模型上则表现出显著的精度下降,特别是在激活被量化的情况下。
该研究团队发现,Llama 3.1 系列模型的量化精度下降现象,源于其激活张量中存在一些相比其他模型更显著的离群值或异常值(outliers)。随着 Llama 3.1 模型体积的增大,这些离群值的现象更加严重。离群值是指在数据中某些数值与其他数值相比差异较大的点,是影响量化精度的关键因素之一。
借助 LLMC 工具,研究团队对 Llama 3.1 系列模型(8B、70B、405B)的第一个 block 的 4 层(q_proj、o_proj、gate_proj、down_proj)输入激活张量进行了可视化(如图 1-3 所示)。每个子图底部展示了该层激活值的所有 token 的 Kurtosis 值的平均值和标准差。
由图 1-3 可以发现,在 Llama 3.1 系列的模型中,激活张量的一些 channel 中存在 outlier,而且在越大的模型中,这个现象更明显。因此,可以合理推断:Llama 3.1 405B 模型虽然变强了,但也变得更加“异常”,更难被量化。
LLMC 工具中支持一系列关于抑制大模型异常值的量化算法,包括 AWQ、SmoothQuant、OS+、QuaRot 等。由表 1 可以看到,这些方法通过有效抑制 outlier,大大提升了 Llama 3.1 的量化精度。例如,在 405B 模型 W8A8 量化上,SmoothQuant、OS+、QuaRot 几乎可以取得与浮点模型相当的精度表现。
LLMC:一站式大模型瘦身工具包
▲ LLMC框架图
支持多种算法。LLMC 支持多种压缩算法,包括 16 种不同的量化方法,涵盖仅权重、权重激活和混合精度量化。这种多样性允许对不同方法进行公平比较和深入分析。当然除了量化,目前还支持各种类型的稀疏以及相关算法。
▲ LLMC目前支持的部分硬件友好压缩算法分类
精度高度对齐。LLMC 团队进行了若干对齐实验,比较了几种已建立的量化算法(LLMC 与原始论文/代码)。
实验设置与原始论文中的设置或其开源代码的默认设置相同(如表 3 所示)。这些实验结果总结在表 4-6 中。表中的结果表明,LLMC 工具在性能上几乎与文献中报道的原始量化算法一致。通过这些实验,证明了 LLMC 不仅有效,而且在重现现有量化方法的结果方面也是可靠的。这确保了该工具对 LLM 量化研究的贡献是可信且有价值的。
以超低成本进行量化。LLMC 工具包旨在实现资源高效利用,并且能够以最低的硬件要求运行大型模型。得益于单 block 级别的运行机制,仅需要一台 80G A100 即可完成 Llama 3.1 405B 的校准和评估,从而实现以超低成本进行量化。
多后端兼容性。LLMC 支持多种量化设置和模型格式,兼容多个后端和硬件平台,例如 LightLLM、TRT-LLM、PPL-LLM、vLLM、MLC-TVM 和 llama.cpp,具有高度的通用性。
高扩展性。该工具包高度模块化和可扩展,能够轻松适配从整数量化到浮点量化,从密集模型到专家混合(MoE)模型,从 LLM 到视觉语言模型(VLM),从量化到稀疏化。这种模块化设计确保用户可以扩展和自定义工具包,以满足他们的需求。
多样化评估。LLMC 能够对压缩模型进行综合评估,提供详细的性能指标和分析,例如困惑度(PPL)、数据可视化分析、峰度值(Kurtosis)、误差和异常值分布。这种全面的评估功能可确保用户能够就其模型的最佳压缩策略做出明智的决策。
LLMC 团队发布了多功能的大模型压缩工具包 LLMC,支持多种压缩算法、模型和推理后端,具有强大的扩展性和全方位的评估能力。
该工具包允许用户仅使用单个 GPU 即可对千亿参数 LLM 进行压缩,这极大地方便了 LLM 量化的应用。配备这款强大的工具包,未来的大模型研究人员以及普通用户可以为他们的应用程序有效地集成合适的算法和对应后端平台所需要的格式,从而普及大模型的压缩应用。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
·
·