大模型量化技术

纛一

已于 2023-09-05 19:28:44 修改

阅读量1.7k

点赞数

文章标签：人工智能深度学习机器学习

于 2023-09-05 19:26:58 首次发布

本文链接：https://blog.csdn.net/liushenggui123/article/details/132698656

版权

大型语言模型存储和计算成本高，模型压缩成为关键，量化是主要手段。文章介绍了对称量化和非对称量化，还阐述了训练后量化（包括权重量化和全量化）和量化感知训练两种量化方式，分析了各自特点和优缺点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

量化

一. 背景

大型语言模型通常具有数十亿乃至上百亿参数，导致存储和计算成本极高，大多数下游用户难以进行微调。为了便于进一步部署，大模型的模型压缩成为关键的解决方案。
模型压缩目标：减少模型大小，加快训练速度，保持相同精度。
针对大模型主要是以量化为主。量化是一种将预训练模型中的权重从浮点数转换成低位数的技术。通常情况下，量化的精度是8位或更低。量化可以大大减少模型的存储空间和计算量，但可能对模型的性能产生一定的影响。

二. 对称量化和非对称量化

对称量化：对称量化中浮点值的零点直接映射到量化值的零点，因此不需要其他参数来调整零点的映射的位置，与量化相关的参数只有缩放因子s。
非
非对称量化：非对称量化有一个额外的参数Z调整零点的映射，这个参数通常称为零点。非对称量化表示的范围没有严格的限制，可以根据浮点值的范围，选取任意的想要表示的范围。因此非对称量化的效果通常比对称量化好，但是需要额外存储以及推理时计算零点相关的内容。
对称量化和非对称量化
计算公式
注：Tmax和Tmin代表浮点数最大值、最小值，Qmax和Qmin代表量化后的最大值和最小值。
举例： 权重范围[-2.0,6.0]，即Tmax=6.0，Tmin=-2.0，用int8量化，定点量化值范围为[-128, 127]，即Qmax = 127，Qmin = -127，那么S和Z的求值过程如下：
计算过程
可以得到如下对应：
浮点数和定点数对应关系
假设一个权重R=0.28，则计算量化后到数如下：
量化计算公式

三. 量化方式

训练后量化

训练后量化直接对已训练完成的模型进行量化，无需复杂的fine-tuning或训练过程，因此训练后量化的开销较小。训练后量化无需或只需要一小部分数据驱动量化，因此能很好地应用于数据敏感的场景。但是训练后量化的模型精度下降可能要高于量化感知训练。训练后量化可以分为权重量化和全量化两种。
1）权重量化：在权重量化中，仅对模型的权重进行量化操作，以整型形式存储模型权重，可以压缩模型的大小。在推理阶段首先将量化的权重反量化为浮点形式，推理过程仍然为浮点计算，无法加速推理过程。
2）全量化：在全量化中对模型权重和激活值进行量化，不仅可以压缩模型大小，减少推理过程的内存占用，而且因为激活值和权重都为整型数据，因此可以使用高效的整型运算单元加速推理过程。全量化可以分为两种形式：静态量化和动态量化。

静态量化：静态量化中离线计算好模型权重和激活的量化参数，推理的时候不再调整直接使用。对激活值量化需要获取激活值的分布信息，因此，静态量化中需要提供一定的数据来推理网络，收集网络的激活值信息，确定相关的量化参数。
动态量化：在动态量化中，激活值相关的量化参数是在推理阶段实时计算的。虽然效果更好，但是会给推理带来额外的开销。

量化感知

量化感知训练在训练好的模型上插入伪量化算子（对数值量化然后反量化），模拟量化产生的误差。然后在训练数据集更新权重并调整对应的量化参数，或者直接将量化参数作为可学习的参数在反向传播中更新。这种方法得到的量化模型精度较高，但是因为需要训练过程，因此开销较大，而且对于数据的要求相对于训练后量化也更高。
感知量化

Quantizer伪量化算子由两部分构成，量化和反量化。在这种方法中主要考虑的一个问题在计算梯度时如何处理量化操作中的不可微分的部分（round操作）。一种传统的方法是使用staright through estimator（STE）将伪量化算子的梯度设置为1，也就是输入的梯度等于输出的梯度。