基于Transformers的自然语言处理入门【八】-Transformers解决序列标注任务

最新推荐文章于 2024-06-07 11:19:05 发布

hezzfew

最新推荐文章于 2024-06-07 11:19:05 发布

阅读量628

点赞数

分类专栏：自然语言处理文章标签：自然语言处理深度学习神经网络

本文链接：https://blog.csdn.net/hezzfew/article/details/120494970

版权

基于Transformers的自然语言处理入门【八】-Transformers解决序列标注任务1 序列标注概念2 常见的token级别分类任务3 预处理数据4 微调预训练模型1 序列标注概念序列标注，通常也可以看作是token级别的分类问题：对每一个token进行分类。token级别的分类任务通常指的是为文本中的每一个token预测一个标签结果。2 常见的token级别分类任务NER（Name-entity recognition 名词-实体识别）分辨出文本中的名词和实体（人名、机构名、地名…）

摘要由CSDN通过智能技术生成

基于Transformers的自然语言处理入门【八】-Transformers解决序列标注任务

1 序列标注概念
2 常见的token级别分类任务
3 预处理数据
4 微调预训练模型

1 序列标注概念

序列标注，通常也可以看作是token级别的分类问题：对每一个token进行分类。token级别的分类任务通常指的是为文本中的每一个token预测一个标签结果。

2 常见的token级别分类任务

NER（Name-entity recognition 名词-实体识别）分辨出文本中的名词和实体（人名、机构名、地名…）
POS（Part-of-speech tagging 词性标注）根据语法对token进行词性标注（名词、动词、形容词…）
Chunk（Chunking短语组块）将同一个短语的tokens组块放在一起。

只要预训练的transformer模型最顶层有一个token分类的神经网络层，就可以解决任务token级别的分类任务。

3 预处理数据

在将数据喂入模型之前，我们需要对数据进行预处理。预处理的工具叫Tokenizer。Tokenizer首先对输入进行tokenize，然后将tokens转化为预模型中需要对应的token ID，再转化为模型需要的输入格式。
为了达到数据预处理的目的，我们使用AutoTokenizer.from_pretrained方法实例化我们的tokenizer，这样可以确保：

我们得到一个与预训练模型一一对应的tokenizer。
使用指定的模型checkpoint对应的tokenizer的时候，我们也下载了模型需要的词表库vocabulary，准确来说是tokens vocabulary。

4 微

最低0.47元/天解锁文章

hezzfew

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
基于Transformers的自然语言处理入门【八】-Transformers解决序列标注任务

基于Transformers的自然语言处理入门【八】-Transformers解决序列标注任务1 序列标注概念2 常见的token级别分类任务3 预处理数据4 微调预训练模型1 序列标注概念序列标注，通常也可以看作是token级别的分类问题：对每一个token进行分类。token级别的分类任务通常指的是为文本中的每一个token预测一个标签结果。2 常见的token级别分类任务NER（Name-entity recognition 名词-实体识别）分辨出文本中的名词和实体（人名、机构名、地名…）
复制链接

扫一扫