中文实体识别数据集

中文命名实体识别数据集

1. 微软实体数据集

  • 数据集简介:

    MSRANER是由微软亚洲研究院标注的新闻领域的实体识别数据集,也是SIGNAN backoff 2006的实体识别任务的数据集之一。该数据集包含5 万多条中文实体识别标注数据,实体类别分为人物、地点、机构三类。

  • 数据集详情:

    名称规模创建日期单位论文下载评测
    MSRANER训练集46364个句子,验证集4365个句子2006年微软亚洲研究院链接链接链接
  • 基于该数据集发表的论文

    • Zhang, Yue , and J. Yang . “Chinese NER Using Lattice LSTM.” (2018).
    • Li, Xiaoya , et al. “Dice Loss for Data-imbalanced NLP Tasks.” (2019).
    • Li, Xiaoya , et al. “A Unified MRC Framework for Named Entity Recognition.” (2019).
    • Diao, Shizhe, et al. “ZEN: Pre-training Chinese Text Encoder Enhanced by N-gram Representations.” arXiv preprint arXiv:1911.00720 (2019).
    • Yan, Hang , et al. “TENER: Adapting Transformer Encoder for Named Entity Recognition.” (2019).

2. 微博实体数据集

  • 数据集简介:

    WeiboNER是根据新浪微博2013年11月至2014年12月间历史数据筛选过滤生成,包含1890条微博消息,基于LDC2014的DEFT ERE的标注标准
    进行标注。该数据集实体类别分为人物,机构组织,地址和地缘政治实体4个类别,并且每个类别可细分为特指(NAM,如“张三”标签为“PER.NAM”)和泛指(NOM,如“男人”标签为“PER.NOM”)。

  • 数据集详情:

    名称规模创建日期作者论文下载评测
    WeiboNER1890条微博消息2015Nanyun Pengoriginal
    revised
    链接链接
  • 基于该数据集发表的论文

    • Peng, Nanyun, and Mark Dredze. “Named entity recognition for chinese social media with jointly trained embeddings.” Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015.
    • He, Hangfeng, and Xu Sun. “F-score driven max margin neural network for named entity recognition in chinese social media.” arXiv preprint arXiv:1611.04234 (2016).
    • Zhang, Yue , and J. Yang . “Chinese NER Using Lattice LSTM.” (2018).
    • Cao, Pengfei , et al. “Adversarial Transfer Learning for Chinese Named Entity Recognition with Self-Attention Mechanism.” Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing 2018.
    • Yan, Hang , et al. “TENER: Adapting Transformer Encoder for Named Entity Recognition.” (2019).

3. 简历实体数据集

  • 数据集简介:

    Resume NER是根据新浪财经网关于上市公司的高级经理人的简历摘要数据,进行筛选过滤和人工标注生成的。该数据集包含1027份简历摘要,实体标注分为人名、国籍、籍贯、种族、专业、学位、机构、职称等8个类别。

  • 数据集详情:

    名称规模创建日期作者论文下载评测
    Resume NER1027份简历2018年Yue Zhang链接链接N/A
  • 基于该数据集发表的论文
    • Zhang, Yue, and Jie Yang. “Chinese NER Using Lattice LSTM.” Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2018.
    • Yan, Hang , et al. “TENER: Adapting Transformer Encoder for Named Entity Recognition.” (2019).

4. 细粒度实体数据集

  • 数据集简介:

    CLUENER2020是根据清华大学开源的文本分类数据集THUCNEWS,进行筛选过滤、实体标注生成的。该数据集包含组织、人名、地址、公司、政府、书籍、游戏、电影、职位、景点等10个实体类别,且实体类别分布较为均衡。

  • 数据集详情:

    名称规模创建日期单位论文下载评测
    CLUENER2020训练集10748个句子,验证集1343个句子2020年CLUEbenchmark链接链接链接

5. Yidu-S4K:医疗命名实体识别数据集

  • 数据集简介:

    Yidu-S4K 数据集源自CCKS 2019 评测任务一,即“面向中文电子病历的命名实体识别”的数据集,包括两个子任务:

    • 医疗命名实体识别:由于国内没有公开可获得的面向中文电子病历医疗实体识别数据集,本年度保留了医疗命名实体识别任务,对2017年度数据集做了修订,并随任务一同发布。本子任务的数据集包括训练集和测试集。
    • 医疗实体及属性抽取(跨院迁移):在医疗实体识别的基础上,对预定义实体属性进行抽取。本任务为迁移学习任务,即在只提供目标场景少量标注数据的情况下,通过其他场景的标注数据及非标注数据进行目标场景的识别任务。本子任务的数据集包括训练集(非目标场景和目标场景的标注数据、各个场景的非标注数据)和测试集(目标场景的标注数据)。
  • 数据集详情:

    名称规模创建日期单位论文下载评测
    Yidu-S4K2019年医渡云NaN链接NaN
  • 9
    点赞
  • 50
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值