LLM之llmc：llmc的简介、安装和使用方法、案例应用之详细攻略

一个处女座的程序猿

已于 2024-08-12 00:37:05 修改

阅读量1.6k

点赞数 8

分类专栏： NLP/LLMs 文章标签：自然语言处理 llmc

于 2024-08-11 23:57:49 首次发布

本文链接：https://blog.csdn.net/qq_41185868/article/details/141114453

版权

NLP/LLMs 专栏收录该内容

765 篇文章

订阅专栏

LLM之llmc：llmc的简介、安装和使用方法、案例应用之详细攻略

llmc的简介

llmc 是一个即插即用的工具，旨在通过最先进的压缩算法进行大型语言模型的压缩，以提高效率并减小模型大小，同时不牺牲性能。

1、新闻

2024 年 7 月 23 日： �� 我们发布了全新版本的基准论文：

LLMC：使用多功能压缩工具包对大型语言模型量化进行基准测试。

Ruihao Gong*, Yang Yong*, Shiqiao Gu*, Yushi Huang*, Chengtao Lv, Yunchen Zhang, Xianglong Liu��, Dacheng Tao(* 表示同等贡献，�� 表示通讯作者。)

我们不关注最佳实践，而是考虑校准数据、算法和数据格式，以模块化和公平的方式对 LLM 量化进行基准测试。通过详细的观察和分析，我们为不同配置下的性能和方法改进提供了各种类型的新点。借助强大的工具包 LLMC 和全面的见解，未来的 LLM 研究人员可以有效地将合适的算法和低位格式集成到他们的应用中，从而使大型语言模型的压缩变得民主化。

2024年7月16号： ��我们现在已经支持了大模型稀疏算法Wanda/Naive(Magnitude)和层间混合bit量化!

2024年7月14号： ��我们现在已经支持了旋转类量化算法QuaRot!

2024年7月4日: �� 我们提供了公开的讨论渠道. 如果您有任何问题，可以加入我们的社区:

2024年5月13日: �� 我们发布了量化基准论文：

LLM-QBench：大型语言模型训练后量化的最佳实践基准.

Ruihao Gong*, Yang Yong*, Shiqiao Gu*, Yushi Huang*, Yunchen Zhang, Xianglong Liu��, Dacheng Tao(* 表示共同第一作者, �� 表示通讯作者.)

我们模块化并公正地基准测试了量化技术，考虑到校准成本、推理效率和量化精度。在多种模型和数据集上进行的近 600 项实验提供了三个洞见：关于校准数据、算法流程和量化配置选择。基于这些洞见，设计了一个最佳的大型语言模型 PTQ 流程，实现了在各种场景下最佳的精确度和效率性能平衡。

2024年3月7日: �� 我们发布了强大且高效的大型语言模型压缩工具的量化部分。值得注意的是，我们的基准论文即将发布��。

2、突出特性

量化大型语言模型，如 Llama2-70B、OPT-175B，并在仅一个 A100/H100/H800 GPU上评估其 PPL。

为用户提供选择的最新的与原论文代码仓库精度对齐的压缩算法，并且用户可以在一个大型语言模型上依次使用多个算法。

由我们工具通过特定压缩算法导出的转换模型（save_trans模式在quant部分的配置）可以通过多个后端进行简单量化，得到经过特定压缩算法优化的模型，相应的后端可以进行推断。

我们的压缩模型（save_lightllm模式在quant部分的[配置](#配置)）具有较低的内存占用，可以直接通过Lightllm进行推断。

3、支持的模型列表、量化算法、剪枝算法

支持的模型包括 BLOOM、LLaMA、LLaMA V2、StarCoder、OPT、Falcon、InternLM2、Mistral 和 LLaMA V3。你可以参考 llmc/models/*.py 目录下的文件，添加你自己的模型类型。

支持的算法有两类：

量化算法包括 Naive、AWQ、GPTQ、SmoothQuant、OS+、OmniQuant、NormTweaking、AdaDim、QUIK、SpQR、DGQ、OWQ、LLM.int8()、HQQ 和 QuaRot；

剪枝算法包括 Naive (Magnitude)、Wanda 和 ShortGPT