2024软件学院创新项目实训（5）--了解量化

xhha18

已于 2024-06-23 19:04:56 修改

阅读量414

点赞数 5

分类专栏： 2024软件学院创新项目实训-基于大模型的知识题库系统文章标签：人工智能

于 2024-06-23 10:41:27 首次发布

本文链接：https://blog.csdn.net/m0_62576028/article/details/139889953

版权

9 篇文章 0 订阅

订阅专栏

本篇了解量化的相关知识，项目使用的两种量化方法其他成员已经发布博客：

对量化的初步了解，就是对大模型进行压缩，减少他的存储空间，提高他的计算速度。

随着大模型的发展，大模型的规模越来越大，模型的参数已突破上万亿的规模，为了降低模型的成本，就必须采取一些压缩技术来减小规模，压缩技术主要有：剪枝，知识蒸馏，量化，低秩分解。通过了解，除量化之外的三种方法对模型的损失都较大，因此量化逐渐成为了模型压缩最重要的方法。

量化本质上是函数的映射，量化建立了高精度的浮点数值和量化后低精度的定点数值之间的数据映射。分为线性量化和非线性量化。

线性量化是目前最常用的量化方法，尤其是在工业界应用比较成熟的8比特量化方案采用的都是线性量化。

非线性量化，“非线性”映射函数多种多样，通常需要根据不同场景的权值输入分布特点，研究使用何种映射方式。

量化能有效的减少成本，逐渐在各个领域都有应用，而对于大模型主要有以下好处：

减少模型大小：
- 量化可以显著降低模型的存储需求。例如，将模型的权重从32位浮点数减少到8位整数，可以将模型大小减少到原来的四分之一。这对于部署在资源受限的设备（如移动设备、嵌入式系统等）上尤其重要。
提高推理速度：
- 较低精度的数据表示使得计算更加高效，特别是在支持低精度运算的硬件（如一些专用AI加速器、GPU或TPU）上，量化模型的推理速度可以得到显著提升。
降低内存带宽需求：
- 量化后，模型的权重和激活值占用更少的内存，减少了对内存带宽的需求。这对于频繁访问内存的操作（如卷积层中的权重读取）能带来性能提升。
节省功耗：
- 在许多计算平台上，低精度运算比高精度运算消耗的功率更少。因此，量化可以帮助延长电池供电设备的续航时间，并降低服务器的运行能耗。
硬件加速器支持：
- 许多现代AI硬件加速器都对量化模型提供了优化支持，这些硬件能够有效利用低精度运算来提升性能。
保持模型性能：
- 尽管量化会引入一定的误差，但通过合适的方法（如量化感知训练、后量化校准等），可以在保持较高模型精度的同时实现量化。许多情况下，量化后模型的准确性损失是可以接受的。

但是这些优化是要付出代价的，减小模型的规模难以避免的付出相应代价，对于本项目，量化后的答题效果并不理想，正确率和解析效果都有较大的降低，所以最终决定不使用量化后的版本。

关注