1. pipeline函数的使用
pipeline函数是transformers库内置的包含整个模型运行到给出结果的测试链条。可以规定出具体的任务,指定模型以及tokenizer。
Question answering pipeline, specifying the checkpoint identifier
>>> oracle = pipeline(
... "question-answering", model="distilbert-base-cased-distilled-squad", tokenizer="bert-base-cased"
...
2. tokenizer函数的使用
通过AutoTokenizer.from_pretrained()来进行模型的加载。 具体使用方式如下所示:
>>> inputs = tokenizer(text=text,max_length=128,padding="max_length",truncation=True,return_tensors ="pt")
其中,text为我们输入规定的文本,max_length规定了每个句子的长度为128,也就是一个句子中最多有128个token,padding规定了将短于128的句子填充到对应的长度,truncation = True规定了长于128的句子进行截断,return_tensors规定了返回的数据类型为torch下的tensor。这里需要注意的是inputs最后得到的是一个字典形式的数据,其中包括了,input_ids,attention_mask等等内容。
3. dataset函数的使用
dataset提供了一种下载数据集的便利方式通过,load_dataset()函数规定了如何加载数据集得到。
>>>tokenizer = AutoTokenizer.from_pretrained("hfl/rbt3")
##加载分词器
dataset = load_dataset('csv',data_files='/Users/Downloads/data.csv')
##规定数据集
test = dataset.filter(lambda x : x["review"] is not None)
##过滤器过滤掉不满足条件的数据,如果没有在load_dataset中进行划分,格式如下:test['train']["review"],规定划分后可以直接test['review']的使用方法。
def func(example,tokenizer=tokenizer):
input = tokenizer(example["review"] ,max_length=512, padding="max_length")
input["labels"] = example["label"]
return input
test = test.map(func,remove_columns=dataset['train'].column_names)
##map函数映射更改数据集内部的形式流程。
print(test['train'])
func = DataCollatorWithPadding(tokenizer=tokenizer)
##为dataloader作准备的函数可将batch更改为tensor形式方便后续的训练流程。
dataloaders = DataLoader(test['train'],batch_size=8,collate_fn=func)
作者:牛客586014884号
链接:关于transformers库的学习总结1_牛客网
来源:牛客网