基于Transformers的自然语言处理入门【八】-Transformers解决序列标注任务
1 序列标注概念
序列标注,通常也可以看作是token级别的分类问题:对每一个token进行分类。token级别的分类任务通常指的是为文本中的每一个token预测一个标签结果。
2 常见的token级别分类任务
- NER(Name-entity recognition 名词-实体识别)分辨出文本中的名词和实体(人名、机构名、地名…)
- POS(Part-of-speech tagging 词性标注)根据语法对token进行词性标注(名词、动词、形容词…)
- Chunk(Chunking短语组块)将同一个短语的tokens组块放在一起。
只要预训练的transformer模型最顶层有一个token分类的神经网络层,就可以解决任务token级别的分类任务。
3 预处理数据
在将数据喂入模型之前,我们需要对数据进行预处理。预处理的工具叫Tokenizer。Tokenizer首先对输入进行tokenize,然后将tokens转化为预模型中需要对应的token ID,再转化为模型需要的输入格式。
为了达到数据预处理的目的,我们使用AutoTokenizer.from_pretrained方法实例化我们的tokenizer,这样可以确保:
- 我们得到一个与预训练模型一一对应的tokenizer。
- 使用指定的模型checkpoint对应的tokenizer的时候,我们也下载了模型需要的词表库vocabulary,准确来说是tokens vocabulary。