中文命名实体识别数据集
1. 微软实体数据集
-
数据集简介:
MSRANER是由微软亚洲研究院标注的新闻领域的实体识别数据集,也是SIGNAN backoff 2006的实体识别任务的数据集之一。该数据集包含5 万多条中文实体识别标注数据,实体类别分为人物、地点、机构三类。
-
数据集详情:
名称 规模 创建日期 单位 论文 下载 评测 MSRANER 训练集46364个句子,验证集4365个句子 2006年 微软亚洲研究院 链接 链接 链接 -
基于该数据集发表的论文:
- Zhang, Yue , and J. Yang . “Chinese NER Using Lattice LSTM.” (2018).
- Li, Xiaoya , et al. “Dice Loss for Data-imbalanced NLP Tasks.” (2019).
- Li, Xiaoya , et al. “A Unified MRC Framework for Named Entity Recognition.” (2019).
- Diao, Shizhe, et al. “ZEN: Pre-training Chinese Text Encoder Enhanced by N-gram Representations.” arXiv preprint arXiv:1911.00720 (2019).
- Yan, Hang , et al. “TENER: Adapting Transformer Encoder for Named Entity Recognition.” (2019).
2. 微博实体数据集
-
数据集简介:
WeiboNER是根据新浪微博2013年11月至2014年12月间历史数据筛选过滤生成,包含1890条微博消息,基于LDC2014的DEFT ERE的标注标准
进行标注。该数据集实体类别分为人物,机构组织,地址和地缘政治实体4个类别,并且每个类别可细分为特指(NAM,如“张三”标签为“PER.NAM”)和泛指(NOM,如“男人”标签为“PER.NOM”)。 -
数据集详情:
名称 规模 创建日期 作者 论文 下载 评测 WeiboNER 1890条微博消息 2015 Nanyun Peng original
revised链接 链接 -
基于该数据集发表的论文:
- Peng, Nanyun, and Mark Dredze. “Named entity recognition for chinese social media with jointly trained embeddings.” Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015.
- He, Hangfeng, and Xu Sun. “F-score driven max margin neural network for named entity recognition in chinese social media.” arXiv preprint arXiv:1611.04234 (2016).
- Zhang, Yue , and J. Yang . “Chinese NER Using Lattice LSTM.” (2018).
- Cao, Pengfei , et al. “Adversarial Transfer Learning for Chinese Named Entity Recognition with Self-Attention Mechanism.” Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing 2018.
- Yan, Hang , et al. “TENER: Adapting Transformer Encoder for Named Entity Recognition.” (2019).
3. 简历实体数据集
-
数据集简介:
Resume NER是根据新浪财经网关于上市公司的高级经理人的简历摘要数据,进行筛选过滤和人工标注生成的。该数据集包含1027份简历摘要,实体标注分为人名、国籍、籍贯、种族、专业、学位、机构、职称等8个类别。
-
数据集详情:
名称 规模 创建日期 作者 论文 下载 评测 Resume NER 1027份简历 2018年 Yue Zhang 链接 链接 N/A
- 基于该数据集发表的论文:
- Zhang, Yue, and Jie Yang. “Chinese NER Using Lattice LSTM.” Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2018.
- Yan, Hang , et al. “TENER: Adapting Transformer Encoder for Named Entity Recognition.” (2019).
4. 细粒度实体数据集
-
数据集简介:
CLUENER2020是根据清华大学开源的文本分类数据集THUCNEWS,进行筛选过滤、实体标注生成的。该数据集包含组织、人名、地址、公司、政府、书籍、游戏、电影、职位、景点等10个实体类别,且实体类别分布较为均衡。
-
数据集详情:
名称 规模 创建日期 单位 论文 下载 评测 CLUENER2020 训练集10748个句子,验证集1343个句子 2020年 CLUEbenchmark 链接 链接 链接
5. Yidu-S4K:医疗命名实体识别数据集
-
数据集简介:
Yidu-S4K 数据集源自CCKS 2019 评测任务一,即“面向中文电子病历的命名实体识别”的数据集,包括两个子任务:
- 医疗命名实体识别:由于国内没有公开可获得的面向中文电子病历医疗实体识别数据集,本年度保留了医疗命名实体识别任务,对2017年度数据集做了修订,并随任务一同发布。本子任务的数据集包括训练集和测试集。
- 医疗实体及属性抽取(跨院迁移):在医疗实体识别的基础上,对预定义实体属性进行抽取。本任务为迁移学习任务,即在只提供目标场景少量标注数据的情况下,通过其他场景的标注数据及非标注数据进行目标场景的识别任务。本子任务的数据集包括训练集(非目标场景和目标场景的标注数据、各个场景的非标注数据)和测试集(目标场景的标注数据)。
-
数据集详情:
名称 规模 创建日期 单位 论文 下载 评测 Yidu-S4K 2019年 医渡云 NaN 链接 NaN