Fine Tuning操作步骤

pumpkin84514

于 2024-05-22 21:48:42 发布

阅读量724

点赞数 25

分类专栏： AI相关学习文章标签：人工智能

本文链接：https://blog.csdn.net/pumpkin84514/article/details/139130624

版权

AI相关学习专栏收录该内容

73 篇文章 2 订阅

订阅专栏

对预训练模型进行微调（Fine Tuning）涉及多个步骤，下面是详细的操作步骤和每一步的原理：

1. 环境设置

原理：在开始微调之前，需要设置好你的开发环境，包括安装必要的库和工具。

步骤：

安装Hugging Face的Transformers库和其他必要的依赖。

示例：

pip install transformers datasets

2. 数据准备

原理：微调需要特定任务的数据集，比如分类任务的数据集。数据需要整理成适合输入模型的格式。

步骤：

导入并加载数据集。
预处理数据（如分词）。

示例：

from datasets import load_dataset
from transformers import AutoTokenizer

# 加载数据集
dataset = load_dataset('glue', 'mrpc')

# 加载预训练模型的tokenizer
tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')

# 数据预处理
def preprocess_function(examples):
    return tokenizer(examples['sentence1'], examples['sentence2'], truncation=True, padding=True)

encoded_dataset = dataset.map(preprocess_function, batched=True)

3. 模型加载

原理：选择并加载一个预训练模型，这个模型是经过大量数据预训练的，我们将在其基础上进行微调。

步骤：

从Hugging Face模型库中加载预训练模型。

示例：

from transformers import AutoModelForSequenceClassification

# 加载预训练的BERT模型用于序列分类
model = AutoModelForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=2)

4. 定义训练参数

原理：设定训练过程中的各种参数，如学习率、批次大小、训练轮数等，以便优化训练过程。

步骤：

使用TrainingArguments定义训练参数。

示例：

from transformers import TrainingArguments

training_args = TrainingArguments(
    output_dir='./results',            # 保存模型的目录
    num_train_epochs=3,                # 训练轮数
    per_device_train_batch_size=8,     # 每个设备的训练批次大小
    per_device_eval_batch_size=16,     # 每个设备的验证批次大小
    evaluation_strategy='epoch',       # 每个epoch结束后评估模型
    logging_dir='./logs',              # 日志保存目录
    logging_steps=10,                  # 每10步记录一次日志
    save_strategy='epoch',             # 每个epoch结束后保存模型
    learning_rate=5e-5,                # 学习率
    fp16=True                          # 使用混合精度训练
)

5. 创建Trainer

原理：Trainer是Hugging Face的高级API，简化了训练过程。它自动处理训练循环、评估和保存模型。

步骤：

使用Trainer类创建一个Trainer实例，并传入模型、训练参数和数据集。

示例：

from transformers import Trainer

trainer = Trainer(
    model=model,                        # 模型
    args=training_args,                 # 训练参数
    train_dataset=encoded_dataset['train'],  # 训练数据集
    eval_dataset=encoded_dataset['validation']  # 验证数据集
)

6. 模型训练

原理：通过训练，让模型的参数适应特定任务的数据，从而在这个任务上表现更好。

步骤：

调用trainer.train()方法开始训练。

示例：

trainer.train()

7. 评估模型

原理：评估模型在验证集上的表现，以了解其性能。

步骤：

使用trainer.evaluate()方法进行评估。

示例：

trainer.evaluate()

8. 保存模型

原理：将微调后的模型保存，以便以后使用或部署。

步骤：

调用trainer.save_model()方法保存模型。

示例：

trainer.save_model('./fine-tuned-model')

综合示例代码

以下是上述步骤的完整代码示例：

from datasets import load_dataset
from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer

# 1. 加载数据集
dataset = load_dataset('glue', 'mrpc')

# 2. 加载预训练模型的tokenizer
tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')

# 3. 数据预处理
def preprocess_function(examples):
    return tokenizer(examples['sentence1'], examples['sentence2'], truncation=True, padding=True)

encoded_dataset = dataset.map(preprocess_function, batched=True)

# 4. 加载预训练的BERT模型
model = AutoModelForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=2)

# 5. 定义训练参数
training_args = TrainingArguments(
    output_dir='./results',
    num_train_epochs=3,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=16,
    evaluation_strategy='epoch',
    logging_dir='./logs',
    logging_steps=10,
    save_strategy='epoch',
    learning_rate=5e-5,
    fp16=True
)

# 6. 创建Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=encoded_dataset['train'],
    eval_dataset=encoded_dataset['validation']
)

# 7. 模型训练
trainer.train()

# 8. 评估模型
trainer.evaluate()

# 9. 保存模型
trainer.save_model('./fine-tuned-model')

通过以上步骤和代码示例，你可以完成对预训练模型的微调过程，从而适应特定的任务需求。

pumpkin84514

关注

25
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Fine Tuning操作步骤

原理：设定训练过程中的各种参数，如学习率、批次大小、训练轮数等，以便优化训练过程。步骤使用定义训练参数。示例output_dir='./results', # 保存模型的目录num_train_epochs=3, # 训练轮数per_device_train_batch_size=8, # 每个设备的训练批次大小per_device_eval_batch_size=16, # 每个设备的验证批次大小evaluation_strategy='epoch', # 每个epoch结束后评估模型。
复制链接

扫一扫

专栏目录