QLoRa 低秩分解+权重量化的微调

最新推荐文章于 2025-03-23 20:58:54 发布

super_journey

最新推荐文章于 2025-03-23 20:58:54 发布

阅读量664

点赞数 5

分类专栏： AIGC大模型大模型教程文章标签：大模型 AIGC ai

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38650077/article/details/137701583

版权

教程同时被 3 个专栏收录

16 篇文章

订阅专栏

5 篇文章

订阅专栏

4 篇文章

订阅专栏

本文介绍了QLoRa技术，通过低秩分解减少全连接层和卷积层的参数，随后进行权重量化以降低存储和计算需求。权重量化在INT8量化下能大幅减小存储和计算复杂度，但需平衡模型精度与效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

QLoRa的核心思想是首先使用低秩分解技术降低参数的数量，然后对这些低秩表示的参数应用量化技术，进一步减少所需的存储空间和计算量。

https://arxiv.org/abs/2305.14314

低秩分解

低秩分解（Low-Rank Factorization）：通过将模型中的权重矩阵分解为更小的矩阵乘积，减少模型中的参数数量。

参看：LoRA 微调和低秩矩阵

类似下图，4×5 的矩阵变成 4×2 的矩阵跟 2×5 的矩阵乘积：

这种方法特别适用于减少全连接层和卷积层的参数，因为这些层通常包含大量的参数。

权重量化

权重量化（Weight Quantization）：在进行低秩分解之后，QLoRa对得到的低秩矩阵进行量化，将浮点数权重转换为低比特宽度的表示形式。

这进一步减少了模型的存储需求和计算复杂度，使模型更适合部署在资源受限的设备上。

下面是一些常见的权重量化方法及其对计算和存储复杂度的影响的比较：

存储复杂度降低：这指的是模型权重存储空间的减少。例如，使用8位整数（INT8）量化时，存储需求是原始32位浮点数（FP32）的1/4，因此存储复杂度降低了4倍。
计算复杂度降低：这主要指的是运行模型所需的计算资源减少。计算复杂度的降低程度取决于特定硬件对不同数据类型操作的支持程度。一般来说，使用低比特宽度进行量化可以显著加速计算，尤其是在支持特定量化操作的硬件上。

需要注意的是，量化的比特宽度越低，对模型精度的潜在影响越大。因此，在选择量化策略时，需要在模型大小、计算效率与模型性能之间做出权衡。此外，实际的存储和计算复杂度降低也取决于特定的模型架构、硬件平台以及量化后的优化程度。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。