大模型基础知识-LoRA与QLoRA

最新推荐文章于 2025-04-02 14:58:40 发布

破壁者-燕

最新推荐文章于 2025-04-02 14:58:40 发布

阅读量2.2k

点赞数 4

文章标签：深度学习

本文链接：https://blog.csdn.net/u010069760/article/details/140450031

版权

介绍 LoRA 与 QLoRA
1. LoRA (Low-Rank Adaptation)
LoRA 是一种用于大规模语言模型 (LLM) 的参数高效微调技术，旨在减少微调大模型所需的计算资源和存储空间。LoRA 的核心思想是将全量参数更新分解为低秩矩阵的形式，从而显著减少参数数量和计算开销。

核心思想：

低秩分解：将大模型的权重矩阵表示为两个低秩矩阵的乘积。这种分解方法不仅保留了原始模型的表示能力，还显著减少了微调过程中需要更新的参数数量。
参数高效：通过这种方式，只需微调少量参数（即低秩矩阵的参数），而非整个模型的参数，从而大大降低了存储和计算成本。
优点：

存储节省：减少了需要存储和更新的参数数量。
计算效率：降低了微调过程中所需的计算资源。
可扩展性：适用于各种大规模预训练模型，包括 NLP 和 CV 等领域。
应用场景：

自然语言处理 (NLP)：如机器翻译、文本生成等任务。
计算机视觉 (CV)：如图像分类、对象检测等任务。

import torch
import torch.nn as nn

class LoRALinear(nn.Module):
    def __init__(self, in_features, out_features, rank=4):
        super(LoRALinear, self).__init__()
        self.rank = rank
        self.weight_A = nn.Parameter(torch.randn(in_features, rank))
        self.weight_B = nn.Parameter(torch.randn(rank, out_features))
        self.bias = nn.Parameter(torch.zeros(out_features))

    def forward(self, x):
        return x @ self.weight_A @ self.weight_B + self.bias

# 示例用法
lora_layer = LoRALinear(512, 1024)
input_data = torch.randn(32, 512)
output_data = lora_layer(input_data)

2. QLoRA (Quantized Low-Rank Adaptation)

QLoRA (Quantized Low-Rank Adaptation) 是一种结合了模型量化和低秩适配的技术，旨在减少大规模预训练模型微调和部署的计算和存储成本。QLoRA 的主要思路是：

量化预训练模型参数：将已有的大规模预训练模型参数进行量化处理，以减少存储需求和计算负担。
低秩适配 (LoRA)：在量化后的模型上应