QLORA: Efficient Finetuning of Quantized LLMs大模型论文讲解

最新推荐文章于 2024-09-17 16:52:57 发布

chenmingwei000

最新推荐文章于 2024-09-17 16:52:57 发布

阅读量181

点赞数

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chenmingwei000/article/details/131320387

版权

Qlora提出了一种新方法，能在量化模型至4bit时保持性能，通过使用低秩适配权重和反向传播中量化的梯度更新。在大型语言模型（LLM）中，只更新少量的适配器参数，降低了微调时的内存需求。这种方法有助于模型压缩，尤其是对于资源受限的环境。

摘要由CSDN通过智能技术生成

主要是为了更好地理解Qlora如何利用量化较少训练内存，学习永无止境，紧随其后；

QLORA首次提出了量化4bit而没有任何性能的损失，作者提出了一种新的高精度技术来量化预训练模型参数到4bit，并且添加了一个小的可学习的低秩适配权重，他的参数更新通过反向传播梯度量化的权重；为LLM的每一层添加了少量的可训练参数（适配器），并冻结了所有原始参数。这样对于微调，只需要更新适配器权重，这可以显著减少内存占用。具体量化博客讲的不错(126条消息) 闲话模型压缩之量化（Quantization）篇_模型压缩量化_ariesjzj的博客-CSDN博客 (126条消息) 模型压缩之量化入门笔记||量化基本公式的理解||量化过程可视化||LSQ公式理解_Bitterest的博客-CSDN博客 (126条消息) 半精度（FP16），单精度（FP32），双精度（FP64）_我叫夏满满的博客-CSDN博客

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。