LLM微调入门指南

最新推荐文章于 2024-10-15 01:20:33 发布

灵雀云

最新推荐文章于 2024-10-15 01:20:33 发布

阅读量576

点赞数 26

文章标签：人工智能大模型微调

本文链接：https://blog.csdn.net/alauda_andy/article/details/141820789

版权

微调大型语言模型（LLMs）已经彻底改变了自然语言处理（NLP），为语言翻译、情感分析和文本生成等任务提供了前所未有的能力。这种变革性的方法利用了像GPT-2这样的预训练模型，通过微调过程提升了它们在特定领域的表现。

在过去的一年半时间里，由于大型语言模型（LLMs）的普及，自然语言处理（NLP）领域经历了显著的转变。这些模型呈现的自然语言技能使得几年前看起来不可能实现的应用成为可能。LLMs正在改变边界，其能力范围从语言翻译到情感分析和文本生成。然而，我们都知道训练这类模型既耗时又昂贵。这就是为什么微调大型语言模型对于定制这些高级算法以满足特定任务或领域非常重要。这个过程增强了模型在专业任务上的表现，并显著扩大了它在各个领域的适用性。这意味着我们可以利用预训练的自然语言处理能力的LLMs，并进一步训练它们来执行我们的特定任务。今天，让我们探索预训练语言模型的精髓，并进一步深入了解微调过程：通过使用Hugging Face微调GPT-2模型的上手步骤。

预训练语言模型的工作原理

语言模型（Language Model或LM）是一种AI算法，它通过分析句子中已有的部分来预测接下来的单词。这种模型通常基于Transformer架构，例如GPT（生成式预训练变换器），它在大量文本数据上进行预训练。通过这样的训练，大型语言模型（LLMs）能够学习并掌握单词使用的上下文和自然语言的排列规则，从而在生成文本时更加流畅和准确。

图示：LLM的输入和输出

最重要的是，这些模型不仅擅长理解自然语言，而且擅长根据它们接收的输入生成文本。

什么是微调，它为什么重要？

微调是采用预训练模型并在特定领域的数据集上进一步训练它的过程。今天大多数LLM模型在通用性能上表现优异，但在特定的任务导向问题上却表现不佳。微调具备显著优势，包括降低计算开销和能够在不从头开始建模的情况下利用现有的先进模型。Transformer提供了广泛的预训练模型，适用于各种任务。微调这些模型是提高模型执行特定任务（如情感分析、问答或文档摘要）能力的关键步骤，确保更高的准确性。

图示：可视化微调过程

微调优化了模型在特定任务上的表现，增强其在实际应用中的有效性和适用性。这一步骤对于定制化现有模型，以满足特定任务或领域的需求至关重要。

微调的几种方法

微调可以根据其核心关注点和特定目标，采用以下几种方法来进行。

监督式微调 最直接且常见的微调方法。在这种方法中，模型使用针对目标任务（例如文本分类或命名实体识别）的标注数据集进行进一步的训练。例如，我们将在包含已标注情感的文本样本的数据集上训练我们的模型，以进行情感分析。

少样本学习 在某些情况下，收集大量标注数据集是不切实际的。为解决这个问题，少样本学习尝试在提示词的开头提供一些示例。这有助于模型更好地理解任务的背景，而无需进行大量的微调。

迁移学习 尽管所有微调技术都是一种迁移学习，但这一类技术的具体目标是让模型能够执行与最初训练任务不同的任务。其主要思路是利用模型从大型通用数据集中获得的知识，将其应用到更具体或相关的任务中。

领域特定微调 这类模型微调微目的在于使其能够理解和生成特定领域或行业的文本。在由目标领域文本组成的数据集上对模型进行微调，以改进其语境和特定领域任务的知识。例如，要为医疗应用程序生成聊天机器人，模型将使用医疗记录进行训练，使其语言理解能力适应健康领域。

微调LLM的步骤

微调是将预先训练好的模型，通过在特定任务的数据集上进行训练来更新其参数的过程。让我们通过微调一个真实的模型来举例说明这一概念。假设我们正在使用GPT-2，但我们发现它在推断文本的情感方面表现不佳。我们自然会想到做些什么来提高它的准确性。

我们可以利用微调的优势，通过使用包含推文及其对应情感的数据集来训练从Hugging Face模型库中预训练的GPT-2模型，以此提升性能。以下是一个微调模型的基本示例：

第1步：选择预训练模型和数据集

要微调模型，我们需要有一个预先训练好的模型。在本例中，我们将使用 GPT-2 进行一些简单的微调。

Hugging Face数据集中心的截图，选择OpenAI的GPT2模型。

第2步：加载要使用的数据

现在我们有了模型，我们需要一些高质量的数据来使用，这正是数据集库的用武之地。在本例中，我将使用Hugging Face数据集库导入一个包含按情感（积极、中立或消极）分割的文本的数据集。

from datasets import load_dataset
dataset = load_dataset("mteb/tweet_sentiment_extraction")df = pd.DataFrame(dataset['train'])

如果我们查看刚刚下载的数据集，它是一个包含训练集和测试集的数据集。如果我们将训练子集转换为DataFrame，如下图所示：

图示：数据集

第3步：分词器（Tokenizer）

既然我们已经获取了数据集，接下来是使用分词器（Tokenizer）来处理数据，以便它们能够被我们的模型正确解析。在 LLM 使用tokens时，我们需要一个分词器（Tokenizer）来处理数据集。若要一步处理数据集，可使用“数据集映射”方法对整个数据集应用预处理函数。这就是为什么要在第二步加载预先训练好的分词器（Tokenizer），并对数据集进行标记化处理，以便进行微调。

from transformers import GPT2Tokenizer
# Loading the dataset to train our modeldataset = load_dataset("mteb/tweet_sentiment_extraction")
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")tokenizer.pad_token = tokenizer.eos_tokendef tokenize_function(examples):   return tokenizer(examples["text"], padding="max_length", truncation=True)
tokenized_datasets = dataset.map(tokenize_function, batched=True)

补充：为了提高处理要求，我们可以从完整数据集中创建一个较小的子集来微调我们的模型。训练集将用于微调模型，而测试集将用于评估模型。

small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000))small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))

第4步：初始化基础模型

首先加载模型并指定预期的标签数量。从情感数据集卡中，我们知道有三个标签：

from transformers import GPT2ForSequenceClassification
model = GPT2ForSequenceClassification.from_pretrained("gpt2", num_labels=3)

第5步：评估方法

Transformers提供了一个优化训练的Trainer类。然而，这种方法不包括如何评估模型。这就是为什么，在开始训练之前，我们需要向Trainer传递一个函数来评估我们的模型性能。

import evaluate
metric = evaluate.load("accuracy")
def compute_metrics(eval_pred):   logits, labels = eval_pred   predictions = np.argmax(logits, axis=-1)   return metric.compute(predictions=predictions, references=labels)

第6步：使用Trainer方法进行微调

我们的最后一步是设置训练参数并启动训练过程。Transformers库包含了Trainer类，它支持广泛的训练选项和特性，例如日志记录、梯度累积和混合精度。我们首先定义训练参数以及评估策略。一旦所有内容都定义好了，我们可以简单地使用train()命令来训练模型。

from transformers import TrainingArguments, Trainer
training_args = TrainingArguments(   output_dir="test_trainer",   #evaluation_strategy="epoch",   per_device_train_batch_size=1,  # Reduce batch size here   per_device_eval_batch_size=1,    # Optionally, reduce for evaluation as well   gradient_accumulation_steps=4   )

trainer = Trainer(   model=model,   args=training_args,   train_dataset=small_train_dataset,   eval_dataset=small_eval_dataset,   compute_metrics=compute_metrics,
)
trainer.train()