以下内容是对hugging face官方NLP教程“微调一个预训练模型”章节的精炼总结。
详细内容和可以参考原教程链接:
https://huggingface.co/learn/nlp-course/zh-CN/chapter3/1?fw=pt
1. 设置环境
要点:安装必要的库并导入相关模块。我们需要安装transformers
和datasets
库,用于加载预训练模型和数据集。
代码方法和例子:
!pip install transformers datasets
from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
from datasets import load_dataset
解释:transformers
库包含各种预训练模型,datasets
库提供多种标准数据集。通过导入这些模块,我们可以方便地加载模型和数据集。
2. 加载数据集
要点:使用Hugging Face数据集加载器从库中加载特定数据集,例如GLUE任务中的MRPC数据集。
代码方法和例子:
dataset = load_dataset("glue", "mrpc")
解释:load_dataset
函数从Hugging Face数据集库中加载指定的数据集,这里使用的是GLUE中的MRPC数据集。
3. 数据预处理
要点:使用预训练的分词器对数据进行编码。预处理步骤将文本数据转换为模型可接受的输入格式。
代码方法和例子:
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased"