大模型LLM量化 , 5个基础技术知识

程序员维他命

已于 2024-08-21 11:31:39 修改

阅读量1k

点赞数 29

文章标签：人工智能语言模型 agi 大模型

于 2024-07-29 11:30:25 首次发布

本文链接：https://blog.csdn.net/h1453586413/article/details/140767099

版权

写这篇文章原因下载 qwen 110B 模型发现不同量化占的内存差异很大,就想搞明白到底量化会着重影响哪方面的推理能力

“

Qwen1.5-110B-Chat的显存全精度部署(32 精度)占用220GB;8bit量化部署Qwen1.5-110B需要113GB显存;4bit量化部署Qwen1.5-110B，需要62GB显存

大型语言模型（LLMs）的量化是减小其大小和内存使用的关键策略，同时努力保持其质量。这种压缩技术对于在计算能力有限的设备上部署高级模型至关重要

2 种量化方式

量化是指将连续的无限值映射到较小的离散有限值集合的过程。在大型语言模型（LLMs）的背景下，量化是指将模型的权重从高精度数据类型转换为低精度数据类型的过程。

在量化语言模型（LLM）的技术中，可以分为两种主要的方法：

训练后量化 (Post-Training Quantization, PTQ)：

PTQ 是指将已经训练好,微调好的模型权重转换为较低精度，而无需进行重新训练。这种方法简单易行，但由于权重值的精度降低，可能会稍微影响模型的性能。

简单理解:想象你有一个已经写好的程序，现在你想让它在更简单的计算机上运行，你可以把程序中的数字变得更简单。但是，这可能会让程序稍微变得没那么好用

下图就是把 1.3 变成 1

大多数 LLM用 Auto-GPTQ(hugging face 库里就有)来量化,包括 llama,qwen

pip install auto-gptq optimum 有的不想要官方量化版本的,就自己下载全参数的,用 Auto-GPTQ自己量化

GPTQ其实也是PTQ的一种，但它有一些特别之处。它使用一种混合的量化方案，将模型的权重量化为4位整数（int4），而保留激活值activation为16位浮点数（float16）。在推理（模型使用）时，权重会被动态地转换回浮点数，然后进行实际计算。这种方法带来了接近4倍的内存节省和可能的速度提升，因为权重使用了更低的带宽

而之所以要保留 activation值是 float16,是因为 activation 4 bit 量化后的效果会很糟糕, 而权重 4 bit 量化对质量影响小

量化感知训练 (Quantization-Aware Training, QAT)：

与 PTQ 不同，QAT 在训练阶段或者在训练后的微调阶段 fine-tuning就进行权重转换。这通常会带来更好的模型性能，但需要更多的计算资源。一种广泛使用的 QAT 技术是 QLoRA。

简单理解: 想象你在写程序的时候，就想着怎么让它在更简单的计算机上运行。这需要你花更多时间和精力，但最后程序可能会更好用

在用 QAT量化大型语言模型（LLMs）时，面临主要挑战：*保持零样本泛化能力zero-shot

LLMs在预训练时表现出很强的零样本泛化能力zero-shot，这意味着它们能在没有见过的任务上也能表现不错。为了在量化后保持这种能力，选择合适的微调数据集很重要。如果QAT数据集的领域太窄或与原始预训练数据分布差异太大，可能会影响模型性能

在<LLM-QAT: Data-Free Quantization Aware Training for Large Language Models>这篇论文中主要引入了一种“无数据量化感知训练”（data-free QAT）方法,以 LLaMA models (7B, 13B, and 30B)为例，这种方法使用模型自己生成的数据来进行训练。这样做可以更好地保持原始模型的输出分布，即使不使用原始训练数据也能取得很好的效果,尤其实在较低位数的量化中

LLM-QAT 量化了权重,激活值和 KV 缓存

我在看这篇论文时,根据提供的图表, PTQ 和 QAT 差别也不大

量化模型4 个评估标准

perplexity：作为评估语言模型性能的常用指标，用于衡量模型预测下一个词的不确定性。
BLEURT：基于BERT架构的学习型评估指标，专注于预测文本与参考材料之间的语义相似度。
ChrF：用于评估文本生成系统质量的自动评估指标，特别适用于机器翻译任务。
Frugalscore：提供快速评估文本质量的评估指标，适用于计算资源有限的环境。
METEOR：用于自然语言处理中评估机器翻译系统产生的文本质量的评估指标
困惑度：不同LLM量化方法的平均困惑度值与未量化模型相比没有显著偏差，但2位GPTQ量化方法显示出较高的困惑度，表明可能会降低预测性能
BLEURT：量化模型在保持语义质量方面表现不一，有些量化版本与未量化模型的输出非常接近，而其他则显示出明显的下降，特别是GPTQ 2-bit方法导致负BLEURT分数，表明与未量化模型输出的显著偏差。
ChrF：除了GPTQ 2-bit外，所有量化方法的模型都达到了约60%的ChrF分数，表明与未量化模型输出有很强的相似性。
Frugalscore：三种量化方法（Bitsandbytes、GPTQ 4-bit和GGUF）在保持语义质量方面表现良好，而GPTQ 2-bit方法的MoverScore显著降低，表明文本质量和连贯性的显著减少。
METEOR：除了GPTQ-2bit外，其他三种量化方法在保持语义丰富性和句法准确性方面表现良好，而GPTQ-2bit的METEOR分数接近零，表明显著的质量下降

根据上面记录,2-bit量化严重影响了文本连贯性,怪不得最低都是 4 位量化

为了进一步分析上述结果并确定哪种LLM量化方法影响最小，考虑进行Kruskal-Wallis H检验。这种非参数检验不需要假设数据来自特定的分布，可以比较不同量化方法的影响。如果出现显著差异，则进行后续测试，如Dunn’s测试，以明确模型之间的具体对比。这一统计方法将阐明LLM量化如何影响每个模型，从而指导选择最佳保留模型质量的方法。

具体来说，Kruskal-Wallis H检验是一种非参数检验方法，用于比较三组或以上样本之间是否存在显著差异。它使用秩代替实际数据，不需要假设数据来自正态分布。如果在Kruskal-Wallis H检验中发现显著差异，可以使用Dunn’s测试进行后续的两两比较。Dunn’s测试通过将总体α水平除以比较次数来进行校正，以控制多重比较错误率。

这种统计方法的目的是通过非参数检验和后续测试，明确不同LLM量化方法对模型性能的影响，从而选择最佳的量化方法，以保持模型的质量