自然语言处理——信息抽取——命名实体识别

一、任务定义

命名实体识别(NER)是指识别文本中具有特定意义的实体。比如以下句子

乔布斯离开了苹果

NER系统应该能够识别出【乔布斯】和【苹果】两个实体,并标记【乔布斯】为【人】, 【苹果】为【公司】

二、数据集

对于中文命名实体识别来说,一般数据集有WeiBoMRSAOntoNotesResume
在这里插入图片描述

三、评测方法

命名实体识别一般分为两种评测方法,一种是严格匹配,一种是松弛匹配。比较公认的是第一种。即:边界完全匹配,而且实体类型也要匹配。

  • TP: 识别的实体和真实实体完全匹配
  • FP: 识别的实体和真实实体不完全匹配
  • FN: 真实实体未被识别
    在这里插入图片描述
    在这里插入图片描述
    如果采用BIOSE标签形式,这里有一个好的评测脚本。 调用其中的return_report函数,其参数的是一个txt文件名,文件中的每一行为"字, 真实标签,预测标签"。返回值包含了总的与分类别的Precision,RecallF-score

四、相关工作

序号会议论文阅读笔记源码复现创新点
[1]A Survey on Deep Learning for Named Entity Recognition戳这里
[2]ACL 2018A Study of the Importance of External Knowledge in the Named Entity Recognition Task戳这里
[3]CCKSIncorporating Dictionaries into Deep Neural Networks for the Chinese Clinical Named Entity Recognition Preprint戳这里介绍了一些输入特征构造方法
[4]ACL 2018Chinese NER Using Lattice LSTM戳这里戳这里提出了Lattice机制,更好利用词级别信息
[5]EMNLP-IJCNLP 2019Gazetteer-Enhanced Attentive Neural Networks for Named Entity Recognition戳这里提出了Gazetteer NetWork结合了外部词典
[6]ACL 2019A Neural Multi-digraph Model for Chinese NER with Gazetteers戳这里戳这里结合了图卷积结合字典,且减轻了字典引入的噪声问题
[7]Simplify the Usage of Lexicon in Chinese NER Minlong戳这里戳这里通过分析[4]的优点提出一种结合字典的新颖的编码方法,提高了速度
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值