昇腾服务器：模型量化、W8A8量化、稀疏量化（量化是什么？为什么要做量化？）（模型权重、模型激活、模型剪枝、压缩模型压缩）Atlas 800I A2、Atlas 300I DUO

最新推荐文章于 2025-04-07 10:02:20 发布

Dontla

最新推荐文章于 2025-04-07 10:02:20 发布

阅读量1.6k

点赞数 22

分类专栏：人工智能大模型LLM 文章标签：剪枝算法机器学习

本文链接：https://blog.csdn.net/Dontla/article/details/145747157

版权

大模型LLM 同时被 2 个专栏收录

41 篇文章

订阅专栏

人工智能

30 篇文章

订阅专栏

参考文章：DeepSeek-R1-Distill-Qwen-7B

文章目录

1. 权重量化（Weight Quantization）

基本概念：
权重量化是指把深度学习模型中的参数（通常以32位浮点数表示）转换成低位数的数据类型（例如8位整数）。
主要用途：
- 减少模型大小： 低精度的数据表示可以显著减小模型的存储空间。
- 加速推理速度： 在推理过程中，低精度计算通常比高精度计算快，同时也减少了内存带宽的压力。
- 降低能耗： 较小的模型和更快的计算有助于降低能耗，适用于边缘设备或大规模部署。

2. W8A8量化

基本概念：
“W8A8”中的“W”代表权重（Weights），“A”代表激活（Activations），而“8”则代表使用8位来表示。
主要用途：
- 双向量化： 同时将模型的权重和激活都量化为8位，从而在推理时进一步减少计算和内存开销。
- 专用环境： 文中提到这种量化方式需要在Atlas 800I A2服务器上运行，并且需要使用专门的工具（msmodelslim）来实现。

3. 稀疏量化

基本概念：
稀疏量化是在量化的基础上，通过剪枝（去掉那些贡献很小或几乎为零的权重）形成“稀疏”的矩阵结构，即大部分权重为零。
主要用途：
- 进一步压缩模型： 通过将不重要的权重置零，可以使模型变得更加紧凑。
- 加速推理： 稀疏矩阵在专用硬件上能够利用零值跳过不必要的计算，从而提升推理效率。
- 专用环境： 文中指出稀疏量化只支持在Atlas 300I DUO推理卡上使用，并需要经过两个步骤：首先量化（得到W8A8S量化权重），再进行权重切分及压缩。

总结

- 为什么要做量化？

在实际应用中，尤其是在部署到资源有限的环境（如移动设备、边缘计算设备或特定的服务器硬件）时，模型的大小和计算速度至关重要。量化技术能够在保证模型性能基本不变的情况下，大幅度降低内存占用和计算资源的需求。

- W8A8量化 vs 稀疏量化：

W8A8量化 主要是将所有的权重和激活数据都用8位表示，是一种标准的量化方式。
稀疏量化 除了低位数表示外，还通过剪枝使得很多权重变为0，从而进一步压缩模型，并能在某些硬件上获得更快的推理速度。

ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍
ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ ‌‍ᅟᅠ