Transformers
文章平均质量分 66
版本3.4.0
HMTT
这个作者很懒,什么都没留下…
展开
-
Transformers实战——使用Trainer类训练和评估自己的数据和模型
使用Transformers中的Trainer类训练自己的模型原创 2022-04-06 14:53:41 · 18210 阅读 · 19 评论 -
Transformers实战——使用本地数据进行AclImdb情感分类
使用本地数据进行AclImdb情感分类原创 2022-04-01 15:08:55 · 3264 阅读 · 3 评论 -
Transformers训练和微调:Training and Fine-tuning
使用Transformers来训练和微调模型原创 2022-03-28 22:44:55 · 7300 阅读 · 3 评论 -
Transformers数据预处理:Preprocessing data
数据预处理 Preprocessing data在transformers中,数据处理的主要工具是文本标记器tokenizer。我们可以使用模型对应的文本标记器类型,也可以直接使用AutoTokenizer自动分类。文本标记器首先会把文本分割成单词、标点符号等,这些被分割的元素叫作token。然后将token转化为数字,使之能被转化为训练用的张量tensor。除此之外,一些特定的文本标记器还会加上一些模型需要的特殊标记,如BERT中的CLS、SEP。注意:如果你要使用预训练模型,你就需要使用该模型原创 2022-03-02 20:33:54 · 2398 阅读 · 1 评论 -
Transformers预训练模型使用:翻译 Translation
翻译是将一个语言的文本转化为另一个语言文本的任务。翻译任务的一个比较经典的数据集是WMT English to German dataset,将英语作为输入,对应德语作为输出(自己用的时候也可以反过来)。使用pipeline可以使用如下代码快速实现:from transformers import pipelinetranslator = pipeline("translation_en_to_de")print(translator("Hugging Face is a technology原创 2022-01-10 15:16:17 · 1688 阅读 · 0 评论 -
Transformers预训练模型使用:文本摘要 Summarization
文本摘要是一个将一个文档或文章总结成一小段文字的任务。一个文本摘要任务的数据集叫CNN / Daily Mail dataset,包含长新闻文章和其对应的摘要。使用pipeline同样,我们可以使用pipeline快速实现文本摘要。下面使用的是一个用CNN / Daily Mail dataset微调BERT的模型样例。示例代码:from transformers import pipelinesummarizer = pipeline("summarization")ARTICLE =原创 2022-01-10 15:15:32 · 2653 阅读 · 0 评论 -
Transformers预训练模型使用:命名实体识别 Named Entity Recognition
命名实体识别的任务是对每一个token都进行分类。比如,识别这个token是不是一个人名、组织名或地名。命名实体识别的一个数据集是CoNLL-2003,这个数据集完全契合这个任务。使用pipeline下面是一个使用pipeline实现命名实体识别的样例。首先,要定义9中标签分类:O:不是命名实体。B-MIS:其他类命名实体的开始标记。I-MIS:其他类命名实体的中间标记。B-PER:人名的开始标记。I-PER:人名的中间标记。B-ORG:组织名的开始标记。I-ORG:组织名的中间标记。原创 2022-01-10 15:14:24 · 2105 阅读 · 5 评论 -
Transformers预训练模型使用:语言建模 Language Modeling
语言建模是一个将模型拟合到一个语料库的任务,这个语料库可以是特定领域,也可以是通用领域。所有主流的、基于transformer的模型(跟这个包transformers不是一个东西)都使用了语言建模的变体任务进行训练。如BERT,使用掩码语言建模(masked language modeling),GPT-2是用的是因果语言建模(causal language modeling)。除了用于预训练,预原建模在迁移模型领域时也很有用。比如将一个在超大语料库中训练完成的预训练模型微调到一个新数据集上。掩码语言建原创 2022-01-10 15:13:13 · 3040 阅读 · 0 评论 -
Transformers预训练模型使用:抽取式问答 Extractive Question Answering
使用pipeline抽取式问答的任务是给定一个文本和一个问题,需要从文本中抽取出问题的回答。有个叫SQuAD的数据集可以完全适用于这个任务。以下是一个使用pipline来实现抽取式问答的样例,会用到一个基于SQuAD数据集微调后的模型:示例代码:from transformers import pipelinenlp = pipeline("question-answering")context = r"""Last year, I went to the countryside to g原创 2022-01-10 15:10:49 · 1492 阅读 · 4 评论 -
Transformers预训练模型使用:序列分类 Sequence Classification
序列分类任务的工作是将文本序列归类到预设类型中,如新闻分类、情感分类等,就属于这类任务。情感分类以下是使用pipelines来进行情感分类的例子,具体任务是判断输入文本是消极的还是积极的。示例:from transformers import pipelineclassifier = pipeline("sentiment-analysis")result = classifier("I hate you")[0]print(f"label: {result['label']}, with原创 2022-01-10 15:09:05 · 3650 阅读 · 0 评论 -
Transformers快速入门 Quick tour
先简单介绍一下Transformers库的特点。Transformers可用于下载自然语言理解(Natural Language Understanding)任务的预训练模型,如情感分析任务;也可以用于下载自然语言生成(Natural Language Generation)任务的预训练模型,如翻译任务。使用pipline进行一个自然语言处理任务使用pipline可以快速地使用一些预训练模型。transformers提供了一些经典的自然语言任务:情感分析:分析文本是正面的还是负面的。文本生成:提原创 2021-10-31 22:54:56 · 1840 阅读 · 0 评论