一、技术背景与问题
1.1 核心挑战
微调是提升大语言模型性能的关键手段,但其计算成本随模型规模呈指数级增长。以 LLaMA 65B 模型为例,16 位全参数微调需超过 780GB 的 GPU 内存,这一需求远超普通硬件(如消费级 48GB 显存 GPU)的承载能力。传统微调方法如 LoRA(Low-Rank Adaptation)虽通过低秩适配器减少计算量,但存在以下局限:
- 性能限制:默认超参数下无法达到 16 位全参微调性能,需在所有 Transformer 层应用适配器并调整数量(如 LLaMA 65B 需数百个适配器)才能接近全精度。
- 内存瓶颈:仅部分减少内存占用,处理 65B 模型仍需数百 GB 显存,无法在单卡环境下有效应用。
二、QLoRA 核心技术思路
2.1 技术架构
QLoRA 通过以下组件实现高效微调(图 1):
- 4 位量化模型:将预训练模型参数从 16 位量化为 4 位(NormalFloat-4,NF4),冻结主体参数以降低内存占用。
- 可学习