关于transformers库的学习总结1

3.134

已于 2023-12-03 20:31:53 修改

阅读量458

点赞数 10

文章标签：学习

于 2023-12-03 20:12:12 首次发布

本文链接：https://blog.csdn.net/first314159/article/details/134769646

版权

1. pipeline函数的使用

pipeline函数是transformers库内置的包含整个模型运行到给出结果的测试链条。可以规定出具体的任务，指定模型以及tokenizer。

Question answering pipeline, specifying the checkpoint identifier

>>> oracle = pipeline(
...     "question-answering", model="distilbert-base-cased-distilled-squad", tokenizer="bert-base-cased"
...

2. tokenizer函数的使用

通过AutoTokenizer.from_pretrained()来进行模型的加载。具体使用方式如下所示：

>>> inputs = tokenizer(text=text,max_length=128,padding="max_length",truncation=True,return_tensors ="pt")

其中,text为我们输入规定的文本，max_length规定了每个句子的长度为128，也就是一个句子中最多有128个token,padding规定了将短于128的句子填充到对应的长度，truncation = True规定了长于128的句子进行截断，return_tensors规定了返回的数据类型为torch下的tensor。这里需要注意的是inputs最后得到的是一个字典形式的数据，其中包括了，input_ids,attention_mask等等内容。

3. dataset函数的使用

dataset提供了一种下载数据集的便利方式通过，load_dataset()函数规定了如何加载数据集得到。

 >>>tokenizer = AutoTokenizer.from_pretrained("hfl/rbt3")
 ##加载分词器
 dataset = load_dataset('csv',data_files='/Users/Downloads/data.csv') 
 ##规定数据集
 test = dataset.filter(lambda x : x["review"] is not None)
 ##过滤器过滤掉不满足条件的数据，如果没有在load_dataset中进行划分，格式如下:test['train']["review"]，规定划分后可以直接test['review']的使用方法。
 def func(example,tokenizer=tokenizer):
input = tokenizer(example["review"] ,max_length=512, padding="max_length")
input["labels"] = example["label"]
return input
test = test.map(func,remove_columns=dataset['train'].column_names)
##map函数映射更改数据集内部的形式流程。
print(test['train'])
func = DataCollatorWithPadding(tokenizer=tokenizer)
##为dataloader作准备的函数可将batch更改为tensor形式方便后续的训练流程。
dataloaders = DataLoader(test['train'],batch_size=8,collate_fn=func)

作者：牛客586014884号
链接：关于transformers库的学习总结1_牛客网
来源：牛客网