一、任务定义
命名实体识别(NER)是指识别文本中具有特定意义的实体。比如以下句子
乔布斯离开了苹果
NER系统应该能够识别出【乔布斯】和【苹果】两个实体,并标记【乔布斯】为【人】, 【苹果】为【公司】
二、数据集
对于中文命名实体识别来说,一般数据集有WeiBo
、MRSA、OntoNotes
和Resume
。
三、评测方法
命名实体识别一般分为两种评测方法,一种是严格匹配,一种是松弛匹配。比较公认的是第一种。即:边界完全匹配,而且实体类型也要匹配。
TP
: 识别的实体和真实实体完全匹配FP
: 识别的实体和真实实体不完全匹配FN
: 真实实体未被识别
如果采用BIOSE
标签形式,这里有一个好的评测脚本。 调用其中的return_report
函数,其参数的是一个txt
文件名,文件中的每一行为"字, 真实标签,预测标签"
。返回值包含了总的与分类别的Precision
,Recall
与F-score
四、相关工作
序号 | 会议 | 论文 | 阅读笔记 | 源码复现 | 创新点 |
---|---|---|---|---|---|
[1] | A Survey on Deep Learning for Named Entity Recognition | 戳这里 | 无 | 无 | |
[2] | ACL 2018 | A Study of the Importance of External Knowledge in the Named Entity Recognition Task | 戳这里 | 无 | 无 |
[3] | CCKS | Incorporating Dictionaries into Deep Neural Networks for the Chinese Clinical Named Entity Recognition Preprint | 戳这里 | 无 | 介绍了一些输入特征构造方法 |
[4] | ACL 2018 | Chinese NER Using Lattice LSTM | 戳这里 | 戳这里 | 提出了Lattice 机制,更好利用词级别信息 |
[5] | EMNLP-IJCNLP 2019 | Gazetteer-Enhanced Attentive Neural Networks for Named Entity Recognition | 戳这里 | 无 | 提出了Gazetteer NetWork 结合了外部词典 |
[6] | ACL 2019 | A Neural Multi-digraph Model for Chinese NER with Gazetteers | 戳这里 | 戳这里 | 结合了图卷积 结合字典,且减轻了字典引入的噪声 问题 |
[7] | Simplify the Usage of Lexicon in Chinese NER Minlong | 戳这里 | 戳这里 | 通过分析[4]的优点提出一种结合字典的新颖的编码方法,提高了速度 |