开始之前,需要先明确中文命名实体识别这个任务是在做什么,以及数据集标注的格式。
命名实体识别(英语:Named Entity Recognition,简称NER,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。
以数据标注来举例:
美 B-LOC
国 E-LOC
的 O
华 B-PER
莱 I-PER
士 E-PER
我 O
跟 O
他 O
谈 O
笑 O
风 O
生 O
它的每一行由一个字及其对应的标注组成,标注集采用BIOES(B表示实体开头,E表示实体结尾,I表示在实体内部,O表示非实体),句子之间用一个空行隔开。
项目地址:
https://github.com/ProHiryu/bert-chinese-ner (预训练的bert当作特征提取器,然后直接分类)