AI大模型量化技术介绍（四）训练后量化、4位量化

大模型微调部署

已于 2024-09-12 12:04:39 修改

阅读量2k

点赞数 21

文章标签：人工智能大模型 AI大模型 ai 训练后量化 4位量化学习

于 2024-08-26 15:12:41 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/star_nwe/article/details/141564756

版权

一、训练后量化

最有名的量化技术之一是训练后量化（PTQ）。它涉及在训练模型之后对模型的参数（包括权重和激活）进行量化。

_权重_的量化使用对称量化或非对称量化来执行。但是，_激活_的量化需要推断模型以获取它们的潜在分布，因为我们不知道它们的范围。

所以这里又引出了激活的量化的两种形式：

1. 动态量化

数据通过隐藏层后，其激活值被收集：

然后使用这些激活值的分布来计算量化输出所需的零点（z）和比例因子（s）值：

每次数据通过新层时都会重复此过程。每一层都有其自己的z 和 s 值，因此具有不同的量化方案。

2. 静态量化

与动态量化不同，静态量化不是在推理过程中，而是在之前计算零点（z）和比例因子（s）。

为了找到这些值，需要使用一个校准数据集，将其提供给模型以收集这些潜在的分布。

在收集了这些值之后，就可以计算推理过程中执行量化所需的s 和 z 值。

在进行实际推理时，s 和 z 值不会重新计算，而是全局使用，量化所有激活。

通常，动态量化由于仅尝试计算每个隐藏层的s 和 z 值，因此可能更准确。但是这会大大增加计算时间，因为需要计算这些值。

静态量化的准确性虽然较低，但由于已经知道用于量化的s 和 z 值，因此速度更快，所以一般都会使用静态量化。

二、4位量化

将量化位数降低到低于8位已被证明是一项艰巨的任务，因为每减少一位，量化误差都会增加。但是有几种灵巧的方法可以将位数减少到6位、4位，甚至2位（尽管通常不建议使用这些方法将位数降低到低于4位）。

这里将介绍在HuggingFace上常见的两种方法：

1. GPTQ

GPTQ 是目前最著名的4位量化方法之一。

它使用非对称量化，并且逐层进行，每层独立处理完毕后再继续到下一层：

在这个逐层量化过程中，它首先将层的权重转换为逆-赫塞矩阵（Hessian）。赫塞矩阵是模型损失函数的二阶导数，它告诉我们模型输出对每个权重变化的敏感度。它本质上展示了每个权重在层中的（逆）重要性。

与赫塞矩阵中较小值相关联的权重更为关键，因为这些权重的小变化可能会导致模型性能的显著变化。

在逆-赫塞矩阵中，较低的值表示更“重要”的权重。我们对权重矩阵中的第一行的权重进行量化然后反量化：

这个过程允许我们计算量化误差（q），我们可以使用之前计算的逆赫塞（h_1）来加权这个量化误差。

本质上是根据权重的重要性创建了一个加权量化误差：

接下来需要将这个加权量化误差重新分配到行中的其他权重上。这有助于维持网络的整体功能和输出。

例如，如果我们对第二个权重，即 .3（x_2）这样做，我们会将量化误差（q）乘以第二个权重的逆赫塞（h_2）

我们也可以对给定行中的第三个权重进行相同的处理：

我们重复这个过程，将加权量化误差重新分配，直到所有值都被量化。

这个方法之所以行之有效，是因为权重通常是相互关联的。所以当一个权重发生量化误差时，相关的权重会相应地更新（通过逆赫塞）。

2. GGUF

虽然GPTQ是一个在GPU上运行完整LLM的出色量化方法，但我们可能没有那么强大的GPU。所以可以使用GGUF将LLM的任何层卸载到CPU上。这可以在VRAM不足的情况下同时使用CPU和GPU。

GGUF的量化方法经常更新，可能取决于位量化的级别。我们这里总结一般的原则。

首先，给定层的权重被分割成包含一组“子”块的“超级”块。从这些块中，我们提取比例因子（s）和alpha（α）：

为了量化给定的“子”块，可以使用之前使用过的absmax量化。记住它将给定的权重乘以比例因子 (s)：

比例因子是使用“子”块的信息计算的，但使用“超级”块的信息量化，后者拥有自己的比例因子：

这种块量化使用“超级”块的比例因子（s_super）来量化“子”块的比例因子（s_sub）。每个比例因子的量化级别可能不同，“超级”块通常具有比“子”块的比例因子更高的精度。

我们介绍几个常用的量化级别（2位、4位和6位）：

根据量化类型，可能需要一个额外的最小值（m）来调整零点。这些与比例因子（s)一样被量化。

最后分享

AI大模型作为人工智能领域的重要技术突破，正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口，掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

1. 成长路线图&学习规划

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

在这里插入图片描述

4. 大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

5. 大模型面试题

面试，不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包，有需要的小伙伴可以微信扫描下方CSDN官方认证二维码，免费领取【保证100%免费】

如有侵权，请联系删除。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。