关于transformers库的学习总结1

1. pipeline函数的使用

pipeline函数是transformers库内置的包含整个模型运行到给出结果的测试链条。可以规定出具体的任务,指定模型以及tokenizer。

Question answering pipeline, specifying the checkpoint identifier

>>> oracle = pipeline(
...     "question-answering", model="distilbert-base-cased-distilled-squad", tokenizer="bert-base-cased"
... 

2. tokenizer函数的使用

通过AutoTokenizer.from_pretrained()来进行模型的加载。 具体使用方式如下所示:

>>> inputs = tokenizer(text=text,max_length=128,padding="max_length",truncation=True,return_tensors ="pt")

其中,text为我们输入规定的文本,max_length规定了每个句子的长度为128,也就是一个句子中最多有128个token,padding规定了将短于128的句子填充到对应的长度,truncation = True规定了长于128的句子进行截断,return_tensors规定了返回的数据类型为torch下的tensor。这里需要注意的是inputs最后得到的是一个字典形式的数据,其中包括了,input_ids,attention_mask等等内容。

3. dataset函数的使用

dataset提供了一种下载数据集的便利方式通过,load_dataset()函数规定了如何加载数据集得到。

 >>>tokenizer = AutoTokenizer.from_pretrained("hfl/rbt3")
 ##加载分词器
 dataset = load_dataset('csv',data_files='/Users/Downloads/data.csv') 
 ##规定数据集
 test = dataset.filter(lambda x : x["review"] is not None)
 ##过滤器过滤掉不满足条件的数据,如果没有在load_dataset中进行划分,格式如下:test['train']["review"],规定划分后可以直接test['review']的使用方法。
 def func(example,tokenizer=tokenizer):
input = tokenizer(example["review"] ,max_length=512, padding="max_length")
input["labels"] = example["label"]
return input
test = test.map(func,remove_columns=dataset['train'].column_names)
##map函数映射更改数据集内部的形式流程。
print(test['train'])
func = DataCollatorWithPadding(tokenizer=tokenizer)
##为dataloader作准备的函数可将batch更改为tensor形式方便后续的训练流程。
dataloaders = DataLoader(test['train'],batch_size=8,collate_fn=func)


作者:牛客586014884号
链接:关于transformers库的学习总结1_牛客网
来源:牛客网

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值