![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
transformers
文章平均质量分 82
桉夏与猫
啥啥啥?这都是啥?
展开
-
transformers库的使用【三】对预训练模型进行微调
1、准备一个数据集在这里将使用Datasets库来下载和准备IMDB数据集首先,使用load_dataset函数来下载数据集from datasets import load_datasetraw_datasets = load_dataset("imdb")这里创建的raw_datasets对象是一个包三个键的字典,其中包含:train、test和unsupervised。在这里我们将使用train进行训练,使用test进行验证DatasetDict({ train原创 2021-10-12 09:50:02 · 8288 阅读 · 0 评论 -
transformers库的使用【三】数据的预处理
处理数据在这里,将介绍如何使用Transformers库来对数据进行处理,我们主要使用的工具是tokenizer。你可以创建一个和模型相关的tokenizer类,或者直接使用AutoTokenizer类。tokenizer是用来把一段文本划分成单词(或者单词的一部分,标点符号等)这些划分以后的到的结果,通常称之为tokens。接下来把这些tokens转换成numbers,这样就可以创建一个tensor来把它们送到模型当中去。注意:如果你打算使用一个预选练的模型,那么去使用和该模型配对的t原创 2021-05-20 14:38:10 · 4695 阅读 · 1 评论 -
transformers库的使用【二】tokenizer的使用,模型的保存自定义
使用标记器(tokenizer)在之前提到过,标记器(tokenizer)是用来对文本进行预处理的一个工具。首先,标记器会把输入的文档进行分割,将一个句子分成单个的word(或者词语的一部分,或者是标点符号)这些进行分割以后的到的单个的word被称为tokens。第二步,标记器会把这些得到的单个的词tokens转换成为数字,经过转换成数字之后,我们就可以把它们送入到模型当中。为了实现这种能把tokens转换成数字的功能,标记器拥有一个词表,这个词汇表是在我们进行实例化并指明模型的时候下载原创 2021-04-01 19:27:54 · 16268 阅读 · 3 评论 -
transformers库的使用【一】——pipeline的简单使用
transformers库的使用使用pipeline API来快速使用一些预训练模型使用预训练模型最简单的方法就是使用pipeline(),transformers提供了一些任务:1、情感分析(Sentment analysis):分析文本是正面的还是负面的2、文本生成(in English):提供一个语句,模型将生成这条语句的下一句3、命名实体识别(NER):在输入的语句中,对每个单词进行标记,来揭示该单词的含义(比如人物、地点等等)4、问题回答:输入一段文本以及一个问题,来从文本原创 2021-04-01 15:10:26 · 10765 阅读 · 3 评论