LoRA 技术原理、优势、训练要点，AI大模型零基础入门到精通实战教程！

最新推荐文章于 2025-04-23 10:05:28 发布

程序员晓晓

最新推荐文章于 2025-04-23 10:05:28 发布

阅读量804

点赞数 17

文章标签：人工智能深度学习机器学习 AI大模型计算机干货分享 LoRA技术

本文链接：https://blog.csdn.net/cxyxx12/article/details/145985528

版权

模型的微调一直是提升模型性能以适应特定任务的关键手段。然而，随着模型规模的不断扩大，传统的全量微调方法面临着资源消耗大、训练时间长等问题。低秩自适应（LoRA）技术的出现，为解决这些问题提供了一种高效的解决方案。

一、LoRA的基本原理

LoRA通过低秩分解来模拟参数的改变量，从而以极小的参数量实现大模型的间接训练。其核心思路是冻结预训练模型的矩阵参数，引入可训练的低秩矩阵A和B，在下游任务训练时仅更新A和B。在推理阶段，将BA加到原参数上，不引入额外的推理延迟。这种设计使得LoRA在保持模型性能的同时，大大减少了可训练参数的数量。

二、LoRA的优势与局限

2.1 优势

1. 参数存储优化：一个中心模型可服务多个下游任务，显著节省参数存储量。

2. 推理效率提升：推理阶段不引入额外计算量，几乎不增加推理延迟，因为适配器权重可与基本模型合并。

3. 方法组合灵活：与其它参数高效微调方法正交，可有效组合。

4. 训练稳定性高：训练任务表现稳定，效果良好。

2.2 局限

存在 LoRA参与训练的模型参数量有限，通常在百万到千万级别，因此在数据和算力充足的情况下，其效果相较于全量微调仍有差距。

我给大家准备了一份全套的《AI大模型零基础入门+进阶学习资源包》，包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。😝有需要的小伙伴，可以VＸ扫描下方二维码免费领取🆓

三、LoRA的训练理论要点

3.1 权重合并

LoRA权重可合入原模型，即将训练好的低秩矩阵（B*A）与原模型权重相加，得到新的权重。

3.2 微调加速原理

1. 部分参数更新：如原论文选择只更新Self Attention的参数，实际也可选择只更新部分层的参数。

2. 通信时间减少：更新参数量减少，多卡训练时传输数据量降低，传输时间随之减少。

3. 低精度加速技术应用：采用FP16、FP8或INT8量化等技术加速训练。

3.3 继续训练策略

若已有LoRA模型仅训练了部分数据，可将之前的LoRA与base model合并后继续训练，同时加入部分之前的训练数据，以保留知识和能力，避免从头训练带来的高成本。

3.4 与全参数微调对比

在计算资源充足且数据量达10k以上时，全参数微调效果更佳。LoRA虽能在消费级GPU上训练，但训练时间更长，且在大量数据训练下，可训练参数量小导致效果不如全量微调。

3.5 LoRA作用于Transformer的参数矩阵选择

不应将所有微调参数置于attention的某一个参数矩阵，而应将可微调参数平均分配到Wq和Wk，效果最佳。即使秩取4，也能在∆W中获取足够信息。

3.6 微调参数量确定

LoRA模型中可训练参数数量取决于低秩更新矩阵大小，由秩r和原始权重矩阵形状决定，实际可通过选择不同的lora_target控制训练参数量。

3.7 Rank选取

Rank常见取值为8，理论上4 - 8之间效果较好，更高取值提升不明显。但在指令微调中，需根据指令分布广度，在8以上取值测试。

3.8 alpha参数选取

alpha为缩放参数，本质与learning rate相同，可默认alpha = rank，仅调整lr以简化超参。

3.9 避免过拟合

可通过减小r或增加数据集大小减少过拟合，也可尝试增加优化器的权重衰减率或LoRA层的dropout值。

3.10 内存使用影响因素

内存使用受模型大小、批量大小、LoRA参数数量及数据集特性影响，使用较短训练序列可节省内存。

3.11 LoRA权重合并

多套LoRA权重可合并，训练时保持独立，前向传播时相加，训练后合并权重简化操作。

3.12 逐层调整LoRA的最优rank

理论上可行，但实际中因增加调优复杂性很少执行。

3.13 Lora矩阵初始化

矩阵B初始化为0，矩阵A采用高斯分布初始化，此方式可在训练开始时维持网络原有输出，同时保证后续学习能更好收敛。若B、A均初始化为0，易导致梯度消失；若均高斯初始化，训练初期可能因偏移值过大引入过多噪声，难以收敛。

四、微调与推理示例

这里给出一个基于Transformer的模型进行微调和推理示例

4.1 微调

import torch
from torch import nn
from transformers import BertModel, BertTokenizer


# 假设我们有一个预训练的BERT模型
pretrained_model_name = 'bert-base-uncased'
model = BertModel.from_pretrained(pretrained_model_name)


# 定义LoRA模块
class LoRA(nn.Module):
	def __init__(self, model):
		super(LoRA, self).__init__()
		self.model = model
		# 为每个Transformer层的自注意力部分添加LoRA
		for i, layer in enumerate(model.encoder.layer):
			self.add_module(f'lora_layer_{i}', LoRALayer(layer.attention.self))
	def forward(self, input_ids, attention_mask):
		return self.model(input_ids, attention_mask=attention_mask)


class LoRALayer(nn.Module):
	def __init__(self, attention):
		super(LoRALayer, self).__init__()
		self.attention = attention
		# 假设我们使用秩为4的LoRA
		self.rank = 4
		self.B = nn.Parameter(torch.randn(self.rank, attention.in_proj_weight.shape[1]))
		self.A = nn.Parameter(torch.randn(attention.in_proj_weight.shape[0], self.rank))

	def forward(self, hidden_states, attention_mask):
		# 计算LoRA的增量矩阵
		delta = torch.matmul(self.B, self.A)
		# 将增量矩阵应用到自注意力的权重上
		self.attention.in_proj_weight = nn.Parameter(self.attention.in_proj_weight + delta)
		# 正常的自注意力计算
		outputs = self.attention(hidden_states, attention_mask=attention_mask)
		# 将增量矩阵移除，恢复原始权重
		self.attention.in_proj_weight = nn.Parameter(self.attention.in_proj_weight - delta)
		return outputs


# 初始化LoRA模块
lora_model = LoRA(model)
# 准备数据集和优化器
# 假设我们有一个下游任务的数据集和对应的tokenizer
tokenizer = BertTokenizer.from_pretrained(pretrained_model_name)
# ... 数据加载和预处理代码 ...
# 定义损失函数和优化器
optimizer = torch.optim.Adam(lora_model.parameters(), lr=1e-5)

# 训练循环
for epoch in range(num_epochs):
	for batch in dataloader:
		input_ids, attention_mask, labels = batch
		optimizer.zero_grad()
		outputs = lora_model(input_ids, attention_mask)
		loss = loss_fn(outputs, labels)
		loss.backward()
		optimizer.step()

4.2 推理

import torch
from transformers import BertTokenizer

# 假设我们已经完成了LoRA模型的微调，并且保存了模型参数
model_path = 'path_to_saved_lora_model'  # 微调后的LoRA模型路径
lora_model = LoRA(model)  # 使用与训练相同的LoRA模型结构
lora_model.load_state_dict(torch.load(model_path))  # 加载微调后的模型参数
lora_model.eval()  # 将模型设置为评估模式
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')  # 加载与预训练模型相同的tokenizer

# 定义一个函数来进行推理
def infer_with_lora_model(input_text, model, tokenizer):
	# 将输入文本编码为模型可以理解的格式
	input_ids = tokenizer.encode(input_text, return_tensors='pt')
	attention_mask = torch.ones_like(input_ids)  # 创建一个与input_ids形状相同的attention_mask
	# 推理时，将增量参数矩阵合并到预训练权重中
	with torch.no_grad():  # 不计算梯度
		outputs = model(input_ids, attention_mask=attention_mask)
	# 处理模型输出，例如，获取最后一层的隐藏状态
	last_hidden_states = outputs.last_hidden_state
	# ...根据任务需求处理输出...
	return last_hidden_states


# 使用模型进行推理
input_text = "Example input text for inference"
inference_output = infer_with_lora_model(input_text, lora_model, tokenizer)
# 打印推理结果
print(inference_output)

五、小结

LoRA作为一种高效的模型微调技术，在当前计算资源受限的情况下，为大模型的应用提供了更灵活、高效的解决方案。尽管其存在一定局限性，但通过合理的参数设置和训练策略优化，能够在多个下游任务中发挥重要作用。随着技术的不断发展，LoRA有望在更多领域得到广泛应用并持续优化。