【大模型开发】开源大模型微调：QLoRA（Quantized LoRA）技术

最新推荐文章于 2025-03-21 20:29:42 发布

云博士的AI课堂

最新推荐文章于 2025-03-21 20:29:42 发布

阅读量678

点赞数 21

分类专栏：大模型技术开发与实践哈佛博后带你玩转机器学习深度学习文章标签： QLoRA Quantized LoRA 大模型开发大模型微调 PEFT 参数高效微调机器学习

本文链接：https://blog.csdn.net/l35633/article/details/146221355

版权

哈佛博后带你玩转机器学习同时被 3 个专栏收录

243 篇文章

订阅专栏

大模型技术开发与实践

238 篇文章

订阅专栏

深度学习

182 篇文章

订阅专栏

以下内容将为你详细介绍 QLoRA（Quantized LoRA） 技术原理、与传统 LoRA 的区别、应用场景以及一个可落地的完整代码示例（基于 HuggingFace Transformers + bitsandbytes），并对核心实现进行剖析。最后，我们会对如何进一步优化和未来发展方向做一些探讨。

大语言模型（LLM） 的参数规模动辄数十亿、上百亿，甚至上千亿。
传统的全量微调需要占用大量 GPU/TPU 显存与计算资源，往往难以在普通硬件上完成。
LoRA（Low-Rank Adaptation） 提供了一种参数高效微调方案：只在部分权重矩阵上添加低秩分解的可学习层，大幅减少需要训练和存储的参数量。
QLoRA 则是在 LoRA 的基础上进一步结合 低位量化（4-bit 或 8-bit），让原始模型本身的权重以较低精度存储，从而显著减小显存占用，又能在微调与推理时保持不错的性能。

1.2 QLoRA 与传统 LoRA 区别

传统 LoRA：一般在 FP16 或 BF16 精度下保留大模型原始权重；再在 Q、K、V、output 等矩阵插入低秩因子，只训练这部分 LoRA 参数。
QLoRA：将大模型原始权重量化到更低的 4-bit（或 8-bit），在保持可训练 LoRA 模块为 FP16/BF16 等较高精度的同时，使整体显存占用和计算量进一步降低。

优点：

低显存：用 4-bit 存储大模型权重能显著减少内存或显存消耗。
方便大模型适配：在同样的硬件条件下，可以加载更大规模的模型并进行微调。
训练效率高：仅训练少量 LoRA 参数，且主干模型使用量化的权重做前向推理与梯度计算。

2. QLoRA 技术原理

2.1 低位量化（4-bit）

在 bitsandbytes 或类似库的支持下，可以将模型权重从 FP16/BF16 压缩到 4-bit 或 8-bit。
4-bit 量化会采用一些特殊的方法（如 bnb 中的 quantization+quantile-based mapping），以尽量保持数值精度。
推理和训练都可以在这种量化表示下执行，从而节省内存带宽与显存开销。

2.2 LoRA 微调核心

LoRA 思想：将某些权重矩阵 W 拆解为 W+BA，其中 B 和A 是低秩矩阵（如秩 r = 8、16）。只对 B 和 A 做训练，原始 W 冻结。
在 GPT/BERT 等 Transformer 结构里常对 Q、K、V、W_o、W_1、W_2 等矩阵做 LoRA 处理。
LoRA 参数量往往仅占原模型的很小一部分，却可在小数据或少量算力下取得相当不错的下游任务结果。

2.3 二者的结合：Quantization + LoRA

QLoRA 中，原始权重被 4-bit 量化、冻结，只在前向传播时进行解码（或部分近似运算），不更新这些量化权重；而在相应矩阵上 额外加上的低秩 LoRA 层 则以正常精度（FP16/BF16）进行训练更新。
这样做能在 不牺牲（或少量牺牲）模型推理与训练效果的同时，大大减少存储与算力消耗。

3. 可运行的案例代码

以下示例使用了 HuggingFace Transformers 与 bitsandbytes 库，对一个 GPT-2 模型进行 4-bit 量化再进行 LoRA 微调，用一个极简的数据集进行语言模型训练演示。

注意：示例仅用于演示 QLoRA 的核心流程，实际生产环境或学术研究会需要更大模型、更多训练数据以及对量化方式与 LoRA 超参数进行更精细调参。

3.1 环境准备与依赖

pip install torch>=1.10 transformers>=4.28 bitsandbytes>=0.37 accelerate
pip install peft  # Parameter-Efficient Fine-Tuning 库

bitsandbytes：支持 8-bit、4-bit 量化。
peft：HuggingFace 官方的 LoRA/Prefix/Adapter 等微调工具包，提供了简洁的高层 API。

3.2 示例数据集

我们这里简单构造一个极小的文本数据集，模拟语言模型训练，目标是让 GPT-2 模型在这类句子上进行下一个 token 的预测。实际中你可以替换成更真实、更大规模的文本。

3.3 模型加载与 QLoRA 配置

主要步骤：

使用 AutoModelForCausalLM.from_pretrained 加载 GPT-2 模型，设置 load_in_4bit=True 以便量化。
用 peft 提供的 get_peft_model 或 prepare_model_for_kbit_training 来包装模型，使其适配 4-bit 量化的训练流程。
设置 LoRA 相关超参数（秩 r、缩放因子 lora_alpha 等）。

下面是完整示例代码：

import torch
import torch.nn as nn
from torch.utils.data import Dataset, DataLoader
from transformers import AutoTokenizer, AutoModelForCausalLM
from transformers import TrainingArguments, Trainer
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
import bitsandbytes as bnb

# =============== 1. 构造示例数据集 ===============
class SimpleLMDataset(Dataset):
    def __init__(self, texts, tokenizer, max_length=32):
        self.texts = texts
        self.tokenizer = tokenizer
        self.max_length = max_length
    
    def __len__(self):
        return len(self.texts)
    
    def __getitem__(self, idx):
        text = self.texts[idx]
        encoding = self.tokenizer(
            text,
            truncation=True,
            padding='max_length',
            max_length=self.max_length,
            return_tensors='pt'
        )
        input_ids = encoding['input_ids'].squeeze(0)
        attention_mask = encoding['attention_mask'].squeeze(0)
        
        # 语言模型自回归训练，labels = input_ids
        return {
            'input_ids': input_ids,
            'attention_mask': attention_mask,
            'labels': input_ids
        }

def data_collator(features):
    # HuggingFace Trainer 默认 collator，可以自己写或直接用 DataCollatorForLanguageModeling
    batch = {}
    batch["input_ids"] = torch.stack([f["input_ids"] for f in features])
    batch["attention_mask"] = torch.stack([f["attention_mask"] for f in features])
    batch["labels"] = torch.stack([f["labels"] for f in features])
    return batch

# =============== 2. 加载 GPT-2 并做 4-bit 量化 ===============
def get_qlora_model_and_tokenizer(model_name="gpt2"):
    print("Loading tokenizer...")
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    tokenizer.pad_token = tokenizer.eos_token  # 确保有pad_token
    
    print("Loading 4-bit quantized model...")
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        load_in_4bit=True,           # 4-bit 量化
        device_map="auto",           # 自动分配到GPU/CPU
        torch_dtype=torch.float16,   # 计算用 FP16
    )
    
    # 适配 k-bit (4-bit) 训练
    # 准备模型，使其支持在量化权重上进行 LoRA 微调
    model = prepare_model_for_kbit_training(model)
    
    # 配置 LoRA 超参数
    lora_config = LoraConfig(
        r=8,                 # LoRA rank
        lora_alpha=32,       # LoRA scaling因子
        target_modules=["c_attn", "c_fc", "c_proj"],  # 针对 GPT-2 不同层的关键矩阵
        lora_dropout=0.05,
        bias="none",
        task_type="CAUSAL_LM"
    )
    
    # 获取 PEFT (LoRA) 模型
    model = get_peft_model(model, lora_config)
    
    return model, tokenizer

# =============== 3. 训练流程示例 ===============
def main():
    # 一些示例文本（实际中应替换成更大规模的训练语料）
    train_texts = [
        "The weather is nice today.",
        "I love to watch movies in the cinema.",
        "Artificial intelligence is transforming many industries.",
        "Python is a popular programming language for machine learning."
    ]
    val_texts = [
        "This cafe serves the best coffee in town."
    ]
    
    model_name = "gpt2"  # 也可用其他支持 causal LM 的模型，如 GPT-NEO 等
    model, tokenizer = get_qlora_model_and_tokenizer(model_name)

    train_dataset = SimpleLMDataset(train_texts, tokenizer, max_length=32)
    val_dataset = SimpleLMDataset(val_texts, tokenizer, max_length=32)
    
    # 超参数
    training_args = TrainingArguments(
        output_dir="./qlora-checkpoints",
        overwrite_output_dir=True,
        num_train_epochs=3,
        per_device_train_batch_size=2,
        per_device_eval_batch_size=2,
        evaluation_strategy="epoch",
        save_strategy="epoch",
        logging_steps=10,
        learning_rate=1e-4,
        fp16=True,
        dataloader_num_workers=0,  # 简化
    )
    
    # 使用 Trainer API
    trainer = Trainer(
        model=model,
        args=training_args,
        train_dataset=train_dataset,
        eval_dataset=val_dataset,
        data_collator=data_collator
    )
    
    # 开始训练
    trainer.train()
    
    # 测试生成
    model.eval()
    test_prompt = "Today I want to"
    inputs = tokenizer(test_prompt, return_tensors="pt").to(model.device)
    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_length=50,
            num_beams=2,
            early_stopping=True
        )
    print("Prompt:", test_prompt)
    print("Generated:", tokenizer.decode(outputs[0], skip_special_tokens=True))

if __name__ == "__main__":
    main()

3.4 训练与推理示例

运行上述脚本后，模型会先通过 get_qlora_model_and_tokenizer 函数完成 4-bit 量化 + LoRA 注入（只对指定的关键矩阵做 LoRA）。
用 Trainer 进行若干个 epoch 训练，并在每个 epoch 后做验证（示例里只有一条验证数据，仅为演示）。
训练结束后，会演示一个简单的文本生成。

注意：在真实场景下，你需要：

换成更大模型（如 LLaMA、GPT-NeoX）或更大的 GPT-2 变体；
有更多训练样本，以保证微调后有实际价值；
根据 GPU 显存和任务需求，适当调整 batch size、学习率和 LoRA rank；
使用更多优化技巧（如梯度累积、mixed precision 设定等）。

4. 核心代码剖析

4.1 量化与模型准备

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    load_in_4bit=True,
    device_map="auto",
    torch_dtype=torch.float16
)
model = prepare_model_for_kbit_training(model)

load_in_4bit=True 告诉 bitsandbytes 在加载权重时使用 4-bit 量化。
prepare_model_for_kbit_training 会做一些底层转换，如替换部分线性层、确保量化权重在前向过程中可以参与梯度计算（虽然本身会冻结），为 LoRA 做好准备。

4.2 LoRA 参数的引入与冻结原模型

lora_config = LoraConfig(
    r=8,
    lora_alpha=32,
    target_modules=["c_attn", "c_fc", "c_proj"],  # GPT-2中的关键层
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)
model = get_peft_model(model, lora_config)

设置 LoRA 的秩 r=8、缩放因子 lora_alpha=32、以及需要注入 LoRA 的目标模块（如 GPT-2 的 c_attn, c_fc, c_proj 等线性层）。
get_peft_model 会返回一个可训练的 PEFT（LoRA）模型实例：原模型参数（量化）会冻结，只有 LoRA 插件部分的参数可学习。
训练时 Trainer 会自动把这些可学习参数加到优化器中，而不会更新量化后的原权重。

5. 可优化方向与未来工作

5.1 更精细的量化策略

本示例简单使用 4-bit 全量化。实际上还可以对部分敏感层使用 8-bit、其他层使用 4-bit，或者采取分层量化策略；
进一步结合量化感知训练（QAT）或后量化校正（PTQ）的技术，以提升量化精度。

5.2 LoRA 超参搜索（秩、缩放因子等）

不同任务、数据规模下，对 LoRA 的 秩 r、缩放系数 lora_alpha、dropout 等进行调参往往会显著影响结果；
过大的 r 会增加训练参数量；过小则表达能力不足；需根据验证集指标来平衡效果与效率。

5.3 结合 IA3、Prefix Tuning 等方法

多种 Parameter-Efficient 技术可以结合，比如在中间层插入 Prefix Embeddings，同时对注意力输出插入 IA3 缩放因子，再在某些线性层做 LoRA；
在多任务或多语言场景下，可以给不同任务或语言配置不同的 PEFT 插件，从而分享主干量化权重。

5.4 安全与合规

QLoRA 虽然参数开销更小，但下游任务仍可能产生不良或不合规内容；
在商业场景中，需对微调后模型的生成结果进行监控、过滤和人工审查；
也需要注意数据版权与个人信息保护等问题，确保微调数据合法合规。

6. 总结

QLoRA（Quantized LoRA） 是在 LoRA 基础上融入 低位量化（4-bit 或 8-bit）的一种高效微调策略，能够让我们在有限的硬件环境下，对数十亿甚至上百亿参数规模的大模型进行适配与训练：

低显存：原始模型以 4-bit 量化存储，仅保留少量 FP16/BF16 的 LoRA 参数可更新；
易于扩展：可使用 HuggingFace bitsandbytes、peft 等生态工具快速集成到现有的模型与流程；
效果优良：适当调参后，QLoRA 在多种下游 NLP 任务（文本生成、对话问答、信息抽取等）都能获得媲美全量微调的性能。

未来，随着量化方法的进一步发展（如混合精度、多级量化、感知训练），以及 LoRA/Prefix/Adapter 等多种微调方法的相互融合，我们有望在通用硬件条件下训练、推理更大规模的模型，并取得更优异的效果。希望本文的示例对你入门并实践 QLoRA 有所帮助，也祝你在后续的项目中能充分利用 QLoRA 带来的高效与灵活！

【哈佛博后带小白玩转机器学习】 哔哩哔哩_bilibili

总课时超400+，时长75+小时