大模型LLM量化入门：掌握这5个基础技术知识点

AI小白熊

已于 2024-08-26 15:11:06 修改

阅读量198

点赞数 2

文章标签：自动化人工智能产品经理云计算语言模型 ai

于 2024-08-26 15:10:58 首次发布

本文链接：https://blog.csdn.net/2401_85325726/article/details/141564719

版权

写这篇文章原因下载 qwen 110B 模型发现不同量化占的内存差异很大,就想搞明白到底量化会着重影响哪方面的推理能力

“

Qwen1.5-110B-Chat的显存全精度部署(32 精度)占用220GB;8bit量化部署Qwen1.5-110B需要113GB显存;4bit量化部署Qwen1.5-110B，需要62GB显存

大型语言模型（LLMs）的量化是减小其大小和内存使用的关键策略，同时努力保持其质量。这种压缩技术对于在计算能力有限的设备上部署高级模型至关重要

2 种量化方式

量化是指将连续的无限值映射到较小的离散有限值集合的过程。在大型语言模型（LLMs）的背景下，量化是指将模型的权重从高精度数据类型转换为低精度数据类型的过程。

在量化语言模型（LLM）的技术中，可以分为两种主要的方法：

训练后量化 (Post-Training Quantization, PTQ)：

PTQ 是指将已经训练好,微调好的模型权重转换为较低精度，而无需进行重新训练。这种方法简单易行，但由于权重值的精度降低，可能会稍微影响模型的性能。

简单理解:想象你有一个已经写好的程序，现在你想让它在更简单的计算机上运行，你可以把程序中的数字变得更简单。但是，这可能会让程序稍微变得没那么好用

下图就是把 1.3 变成 1

大多数 LLM用 Auto-GPTQ(hugging face 库里就有)来量化,包括 llama,qwen

pip install auto-gptq optimum 有的不想要官方量化版本的,就自己下载全参数的,用 Auto-GPTQ自己量化

GPTQ其实也是PTQ的一种，但它有一些特别之处。它使用一种混合的量化方案，将模型的权重量化为4位整数（int4），而保留激活值activation为16位浮点数（float16）。在推理（模型使用）时，权重会被动态地转换回浮点数，然后进行实际计算。这种方法带来了接近4倍的内存节省和可能的速度提升，因为权重使用了更低的带宽

而之所以要保留 activation值是 float16,是因为 activation 4 bit 量化后的效果会很糟糕, 而权重 4 bit 量化对质量影响小

量化感知训练 (Quantization-Aware Training, QAT)：

与 PTQ 不同，QAT 在训练阶段或者在训练后的微调阶段 fine-tuning就进行权重转换。这通常会带来更好的模型性能，但需要更多的计算资源。一种广泛使用的 QAT 技术是 QLoRA。

简单理解: 想象你在写程序的时候，就想着怎么让它在更简单的计算机上运行。这需要你花更多时间和精力，但最后程序可能会更好用

在用 QAT量化大型语言模型（LLMs）时，面临主要挑战：*保持零样本泛化能力zero-shot

LLMs在预训练时表现出很强的零样本泛化能力zero-shot，这意味着它们能在没有见过的任务上也能表现不错。为了在量化后保持这种能力，选择合适的微调数据集很重要。如果QAT数据集的领域太窄或与原始预训练数据分布差异太大，可能会影响模型性能

在<LLM-QAT: Data-Free Quantization Aware Training for Large Language Models>这篇论文中主要引入了一种“无数据量化感知训练”（data-free QAT）方法,以 LLaMA models (7B, 13B, and 30B)为例，这种方法使用模型自己生成的数据来进行训练。这样做可以更好地保持原始模型的输出分布，即使不使用原始训练数据也能取得很好的效果,尤其实在较低位数的量化中

LLM-QAT 量化了权重,激活值和 KV 缓存

我在看这篇论文时,根据提供的图表, PTQ 和 QAT 差别也不大

量化模型4 个评估标准

perplexity：作为评估语言模型性能的常用指标，用于衡量模型预测下一个词的不确定性。
BLEURT：基于BERT架构的学习型评估指标，专注于预测文本与参考材料之间的语义相似度。
ChrF：用于评估文本生成系统质量的自动评估指标，特别适用于机器翻译任务。
Frugalscore：提供快速评估文本质量的评估指标，适用于计算资源有限的环境。
METEOR：用于自然语言处理中评估机器翻译系统产生的文本质量的评估指标
困惑度：不同LLM量化方法的平均困惑度值与未量化模型相比没有显著偏差，但2位GPTQ量化方法显示出较高的困惑度，表明可能会降低预测性能
BLEURT：量化模型在保持语义质量方面表现不一，有些量化版本与未量化模型的输出非常接近，而其他则显示出明显的下降，特别是GPTQ 2-bit方法导致负BLEURT分数，表明与未量化模型输出的显著偏差。
ChrF：除了GPTQ 2-bit外，所有量化方法的模型都达到了约60%的ChrF分数，表明与未量化模型输出有很强的相似性。
Frugalscore：三种量化方法（Bitsandbytes、GPTQ 4-bit和GGUF）在保持语义质量方面表现良好，而GPTQ 2-bit方法的MoverScore显著降低，表明文本质量和连贯性的显著减少。
METEOR：除了GPTQ-2bit外，其他三种量化方法在保持语义丰富性和句法准确性方面表现良好，而GPTQ-2bit的METEOR分数接近零，表明显著的质量下降

根据上面记录,2-bit量化严重影响了文本连贯性,怪不得最低都是 4 位量化

为了进一步分析上述结果并确定哪种LLM量化方法影响最小，考虑进行Kruskal-Wallis H检验。这种非参数检验不需要假设数据来自特定的分布，可以比较不同量化方法的影响。如果出现显著差异，则进行后续测试，如Dunn’s测试，以明确模型之间的具体对比。这一统计方法将阐明LLM量化如何影响每个模型，从而指导选择最佳保留模型质量的方法。

具体来说，Kruskal-Wallis H检验是一种非参数检验方法，用于比较三组或以上样本之间是否存在显著差异。它使用秩代替实际数据，不需要假设数据来自正态分布。如果在Kruskal-Wallis H检验中发现显著差异，可以使用Dunn’s测试进行后续的两两比较。Dunn’s测试通过将总体α水平除以比较次数来进行校正，以控制多重比较错误率。

这种统计方法的目的是通过非参数检验和后续测试，明确不同LLM量化方法对模型性能的影响，从而选择最佳的量化方法，以保持模型的质量

4 bit量化

最常见的量化就是从 16 位浮点数 float 量化成 4 位的整数integer, 4 位量化是被认为在获得较好的生成质量.又把占用内存最小化的最佳量化位数

再小,像上面说的2 bit 量化会极大影响模型推理质量,再大,总还有些内存还可以再压缩

尤其对于 70B 以上的大参数模型来说, 参数越大的模型,4 bit 量化损失会越少; 反而是越小的模型,需要8 bit 量化

绝大数模型 8 位量化的效果表现都很不错,无论是哪种量化方式,而到了更低位数的 4 位就有一些挑战性

同样内存,选大模型的量化版还是小模型

还是根据LLM-QAT: Data-Free Quantization Aware Training for Large Language Models这篇论文, 根据他们的研究,发现同样内存占用,大模型的地位量化版本比小模型的高位量化版本的生成质量高

一个8-8-8 30B量化模型的表现优于类似大小的13B模型，并且在实际使用中应该具有更低的延迟和更高的吞吐量。这对于8位的13B模型与16位的7B模型也同样适用

量化工具

这张图解释了不同的量化方法，按照 GPU 和 CPU主要分为用于CPU推理的GGML和用于GPU的GPTQ和NF4

同时，图中还展示了与这些量化方法兼容的不同库

具体各个工具怎么量化就不再细化说明, 这篇主要对量化进行技术概念性介绍

零基础如何学习大模型 AI

领取方式在文末

为什么要学习大模型？

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术，如自然语言处理和图像识别，正在推动着人工智能的新发展阶段。通过学习大模型课程，可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术，从而提升自己在数据处理、分析和决策制定方面的能力。此外，大模型技术在多个行业中的应用日益增加，掌握这一技术将有助于提高就业竞争力，并为未来的创新创业提供坚实的基础。

大模型实际应用案例分享

①智能客服：某科技公司员工在学习了大模型课程后，成功开发了一套基于自然语言处理的大模型智能客服系统。该系统不仅提高了客户服务效率，还显著降低了人工成本。
②医疗影像分析：一位医学研究人员通过学习大模型课程，掌握了深度学习技术在医疗影像分析中的应用。他开发的算法能够准确识别肿瘤等病变，为医生提供了有力的诊断辅助。
③金融风险管理：一位金融分析师利用大模型课程中学到的知识，开发了一套信用评分模型。该模型帮助银行更准确地评估贷款申请者的信用风险，降低了不良贷款率。
④智能推荐系统：一位电商平台的工程师在学习大模型课程后，优化了平台的商品推荐算法。新算法提高了用户满意度和购买转化率，为公司带来了显著的增长。
…
这些案例表明，学习大模型课程不仅能够提升个人技能，还能为企业带来实际效益，推动行业创新发展。

学习资料领取

如果你对大模型感兴趣，可以看看我整合并且整理成了一份AI大模型资料包，需要的小伙伴文末免费领取哦，无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述

部分资料展示

一、 AI大模型学习路线图

整个学习分为7个阶段
在这里插入图片描述

二、AI大模型实战案例

涵盖AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，皆可用。
在这里插入图片描述

三、视频和书籍PDF合集

从入门到进阶这里都有，跟着老师学习事半功倍。
在这里插入图片描述

在这里插入图片描述

如果二维码失效，可以点击下方链接，一样的哦
【CSDN大礼包】最新AI大模型资源包，这里全都有！无偿分享！！！

😝朋友们如果有需要的话，可以V扫描下方二维码联系领取~
在这里插入图片描述

AI小白熊

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
大模型LLM量化入门：掌握这5个基础技术知识点

写这篇文章原因下载 qwen 110B 模型发现不同量化占的内存差异很大,就想搞明白到底量化会着重影响哪方面的推理能力Qwen1.5-110B-Chat的显存全精度部署(32 精度)占用220GB;8bit量化部署Qwen1.5-110B需要113GB显存;4bit量化部署Qwen1.5-110B，需要62GB显存大型语言模型（LLMs）的量化是减小其大小和内存使用的关键策略，同时努力保持其质量。这种压缩技术对于在计算能力有限的设备上部署高级模型至关重要。
复制链接

扫一扫