相关数据与代码见文末
1.命名实体识别任务概述
命名实体识别(Named Entity Recognition,简称NER)的主要目标是从文本中识别出具有特定意义的实体,如人名、地名、组织机构名、时间、数量等,并将其归类到预定义的类别中。这一过程确实可以被视作是一个面向token(即文本中的单词或词汇单元)的分类问题。在NER任务中,每个token都被分配一个标签,这些标签代表了该token所属的命名实体类型。常见的命名实体类型包括:
- 人名(Person,PER)
- 地理位置(Location,LOC)
- 组织机构(Organization,ORG)
- 时间表达式(Time,TIME)
- 数量(Quantity,QUANTITY)
- 事件(Event,EVENT)
例如,在句子“李华明天将飞往纽约参加联合国会议”中,NER系统需要识别出“李华”为人名、“明天”为时间表达式、“纽约”为地理位置、“联合国”为组织机构。这个过程涉及对每个token进行分析并标注其类别,体现了面向token的分类性质。
2.命名实体识别数据标注
标注工具:doccano
安装:pip install doccano
配置:
After installation, r