1 安装包
pip install transformers[sentencepiece]
pip install datasets
2 导入数据
from datasets import load_dataset
raw_datasets = load_dataset("glue", "sst2")
raw_datasets
这里使用的是GLUE中SST2数据集,主要针对电影评论来做情感分类(二分类)。
3 pipeline
整个流程是先分词,将文本转化为向量,输入到模型,得到输出后再进行后处理操作。
4 数据处理
from transformers import AutoTokenizer
checkpoint = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
checkpoint就是预训练好的模型。每个模型都有自己专门的tokeni