QLORA: Efficient Finetuning of Quantized LLMs大模型论文讲解

Qlora提出了一种新方法,能在量化模型至4bit时保持性能,通过使用低秩适配权重和反向传播中量化的梯度更新。在大型语言模型(LLM)中,只更新少量的适配器参数,降低了微调时的内存需求。这种方法有助于模型压缩,尤其是对于资源受限的环境。
摘要由CSDN通过智能技术生成

主要是为了更好地理解Qlora如何利用量化较少训练内存,学习永无止境,紧随其后;

QLORA首次提出了量化4bit而没有任何性能的损失,作者提出了一种新的高精度技术来量化预训练模型参数到4bit,并且添加了一个小的可学习的低秩适配权重,他的参数更新通过反向传播梯度量化的权重;为LLM的每一层添加了少量的可训练参数(适配器),并冻结了所有原始参数。这样对于微调,只需要更新适配器权重,这可以显著减少内存占用。具体量化博客讲的不错(126条消息) 闲话模型压缩之量化(Quantization)篇_模型压缩量化_ariesjzj的博客-CSDN博客(126条消息) 模型压缩之量化入门笔记||量化基本公式的理解||量化过程可视化||LSQ公式理解_Bitterest的博客-CSDN博客(126条消息) 半精度(FP16),单精度(FP32),双精度(FP64)_我叫夏满满的博客-CSDN博客

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值