大模型全量微调和LoRA微调详细说明，如何避免灾难性遗忘

漫天飞舞的雪花

于 2024-09-03 16:50:34 发布

阅读量221

点赞数 2

文章标签： llama fine-tuning

本文链接：https://blog.csdn.net/lvdepeng123/article/details/141865871

版权

在使用大模型进行微调时，特别是在语音识别、自然语言处理等任务中经常会遇到两个主要方法：全量微调和LoRA微调。全量微调涉及更新模型的所有参数，而LoRA（Low-Rank Adaptation）则专注于更新少量的参数来适应新的任务。这两种方法各有优缺点，并有不同的应用场景。

全量微调

1. 什么是全量微调？

全量微调是指在微调阶段，更新模型中所有参数。这个过程通常在大规模数据集上进行，以适应新的任务或改进性能。

2. 优点

高灵活性：可以最大程度地优化模型以适应新任务。
广泛应用：在很多场景下使用，已经被高度研究和优化。

3. 缺点

高计算成本：需要更新所有参数，计算和存储成本较高。
灾难性遗忘：在没有小心设计策略的情况下，模型可能会丢失原先在预训练阶段学到的信息。

4. 如何进行全量微调

以下是使用PyTorch进行全量微调的一个示例：

from transformers import BertTokenizer, BertForSequenceClassification, AdamW
from torch.utils.data import DataLoader
import torch

# 加载预训练模型和tokenizer
model_name = 'bert-base-uncased'
model = BertForSequenceClassification.from_pretrained(model_name)
tokenizer = BertTokenizer.from_pretrained(model_name)

# 假设你有一个数据集DataLoader
train_dataloader = DataLoader(...)

# 定义优化器
optimizer = AdamW(model.parameters(), lr=2e-5)

# 设置训练参数
num_epochs = 3

# 训练循环
model.train()
for epoch in range(num_epochs):
    for batch in train_dataloader:
        inputs = tokenizer(batch['text'], padding=True, truncation=True, return_tensors="pt")
        labels = batch['labels']
        outputs = model(**inputs, labels=labels)
        loss = outputs.loss

        # 反向传播和优化
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

LoRA微调

1. 什么是LoRA微调？

LoRA微调是一种低秩适应方法，主要通过在特定的层和特定的尺寸上添加一些低秩矩阵，然后只更新这些低秩矩阵。它旨在减少微调过程中计算和存储成本。

2. 优点

低计算成本：只更新少量参数，大大降低计算和存储需求。
适用于资源受限的环境：特别是在嵌入式设备或移动设备上有用。

3. 缺点

适应性较差：在某些复杂任务中，LoRA可能无法达到全量微调的性能。
需要特殊设计：需要仔细选择哪些层和参数进行低秩适应。

4. 如何进行LoRA微调

以下是一个LoRA微调的示例：

import torch
import torch.nn as nn
from transformers import BertModel, BertTokenizer

class LoRAModule(nn.Module):
    def __init__(self, model, lora_rank=4):
        super(LoRAModule, self).__init__()
        self.lora_rank = lora_rank
        self.original_weight = model.classifier.weight.data.clone()
        self.rank_map = nn.Parameter(torch.randn(lora_rank, model.classifier.weight.size(1)))
        self.ranked_weight = None

    def forward(self, x):
        if self.ranked_weight is None:
            self.ranked_weight = torch.mm(self.rank_map, self.original_weight)
        return torch.mm(x, self.ranked_weight.t())

# 加载预训练模型
model_name = 'bert-base-uncased'
model = BertModel.from_pretrained(model_name)
tokenizer = BertTokenizer.from_pretrained(model_name)

# 替换BERT模型中的classifier为LoRAModule
model.classifier = LoRAModule(model)

# 假设你有一个数据集DataLoader
train_dataloader = DataLoader(...)

# 定义优化器
optimizer = AdamW(model.parameters(), lr=2e-5)

# 设置训练参数
num_epochs = 3

# 训练循环
model.train()
for epoch in range(num_epochs):
    for batch in train_dataloader:
        inputs = tokenizer(batch['text'], padding=True, truncation=True, return_tensors="pt")
        labels = batch['labels']
        outputs = model(**inputs, labels=labels)
        loss = outputs.loss

        # 反向传播和优化
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

避免灾难性遗忘

灾难性遗忘是指模型在微调新任务时，丢失了在原始任务中学到的信息。为避免这一问题，可以使用以下策略：

1. 定期微调

使用小的学习率并进行多次微调，有助于模型逐步适应新任务，从而尽量保留原有知识。

2. 可调参数冻结

冻结部分模型参数，只微调部分特定层。通常，这些层是模型的后几层（高级特征层）。

for name, param in model.named_parameters():
    if "classifier" not in name:  # 只解冻分类头
        param.requires_grad = False

3. 蒙特卡罗Dropout

在训练过程中使用dropout可以帮助模型学习更具泛化性的特征。

4. 经验重放

混合原始任务的数据和新任务的数据，共同训练模型，以保留原始任务的信息。

5. 知识蒸馏

在微调过程中，将新任务学生模型的输出与原始任务教师模型的输出进行对比，从而引导模型保留原有任务的信息。

知识蒸馏示例代码：

import torch.nn.functional as F

# 假设teacher_model是预训练模型，student_model是微调模型
teacher_model.eval()  # 教师模型不更新权重
alpha = 0.5  # 权重系数
T = 2  # 温度

for epoch in range(num_epochs):
    for batch in train_dataloader:
        inputs = tokenizer(batch['text'], padding=True, truncation=True, return_tensors="pt")
        labels = batch['labels']

        student_outputs = student_model(**inputs, labels=labels)
        student_loss = student_outputs.loss

        with torch.no_grad():
            teacher_outputs = teacher_model(**inputs, labels=labels)

        distillation_loss = F.kl_div(
            F.log_softmax(student_outputs.logits / T, dim=1),
            F.softmax(teacher_outputs.logits / T, dim=1),
            reduction='batchmean'
        ) * (T ** 2)

        loss = alpha * student_loss + (1 - alpha) * distillation_loss

        # 反向传播和优化
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

总结

通过全量微调和LoRA微调，可以根据任务需求和资源限制选择合适的方法。全量微调适用于需要高灵活性和高性能的任务，而LoRA微调适用于计算资源有限的场景。为了避免灾难性遗忘，可以采取定期微调、冻结部分参数、使用蒙特卡罗Dropout、体验重放和知识蒸馏等策略。这些方法可以帮助模型在适应新任务的同时，保留原有的知识。

漫天飞舞的雪花

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
大模型全量微调和LoRA微调详细说明，如何避免灾难性遗忘

全量微调是指在微调阶段，更新模型中所有参数。这个过程通常在大规模数据集上进行，以适应新的任务或改进性能。LoRA微调是一种低秩适应方法，主要通过在特定的层和特定的尺寸上添加一些低秩矩阵，然后只更新这些低秩矩阵。它旨在减少微调过程中计算和存储成本。通过全量微调和LoRA微调，可以根据任务需求和资源限制选择合适的方法。全量微调适用于需要高灵活性和高性能的任务，而LoRA微调适用于计算资源有限的场景。为了避免灾难性遗忘，可以采取定期微调、冻结部分参数、使用蒙特卡罗Dropout、体验重放和知识蒸馏等策略。
复制链接

扫一扫