序列标注 (token级的分类问题)
序列标注,通常也可以看作是token级别的分类问题:对每一个token进行分类。
最常见的token级的分类任务
- NER (Named-entity recognition 名词-实体识别) 分辨出文本中的名词和实体 (person人名, organization组织机构名, location地点名…).
- POS (Part-of-speech tagging词性标注) 根据语法对token进行词性标注 (noun名词, verb动词, adjective形容词…)
- Chunk (Chunking短语组块) 将同一个短语的tokens组块放在一起。
预处理数据
在将数据喂入模型之前,我们需要对数据进行预处理。预处理的工具叫Tokenizer。Tokenizer首先对输入进行tokenize,然后将tokens转化为预模型中需要对应的token ID,再转化为模型需要的输入格式。
微调预训练模型
既然数据已经准备好了,现在我们需要下载并加载我们的预训练模型,然后微调预训练模型。既然我们是做seq2seq任务,那么我们需要一个能解决这个任务的模型类。我们使用AutoModelForTokenClassification 这个类
本次主要是熟悉代码。 代码见https://github.com/datawhalechina/Learn-NLP-with-Transformers。
Reference
https://github.com/datawhalechina/Learn-NLP-with-Transformers