中文实体识别数据集

最新推荐文章于 2025-03-26 16:49:40 发布

置顶 SYSU_BOND

最新推荐文章于 2025-03-26 16:49:40 发布

阅读量1w

点赞数 14

分类专栏：自然语言处理文章标签：自然语言处理数据集命名实体识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SYSU_BOND/article/details/118427864

版权

自然语言处理专栏收录该内容

11 篇文章

订阅专栏

本文介绍了四个主要的中文命名实体识别数据集，包括微软的MSRANER，微博NER，简历NER和CLUENER2020。这些数据集涵盖了新闻，社交媒体，简历和细粒度文本等多种场景，实体类别多样，从人物、地点、机构到更具体的组织、地址、职位等。数据集被广泛用于研究和开发，如LSTM模型，预训练模型和Transformer模型在NER任务上的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

中文命名实体识别数据集

1. 微软实体数据集

数据集简介：

MSRANER是由微软亚洲研究院标注的新闻领域的实体识别数据集，也是SIGNAN backoff 2006的实体识别任务的数据集之一。该数据集包含5 万多条中文实体识别标注数据，实体类别分为人物、地点、机构三类。
数据集详情：

名称规模创建日期单位论文下载评测
MSRANER 训练集46364个句子，验证集4365个句子 2006年微软亚洲研究院链接链接链接
基于该数据集发表的论文：
- Zhang, Yue , and J. Yang . “Chinese NER Using Lattice LSTM.” (2018).
- Li, Xiaoya , et al. “Dice Loss for Data-imbalanced NLP Tasks.” (2019).
- Li, Xiaoya , et al. “A Unified MRC Framework for Named Entity Recognition.” (2019).
- Diao, Shizhe, et al. “ZEN: Pre-training Chinese Text Encoder Enhanced by N-gram Representations.” arXiv preprint arXiv:1911.00720 (2019).
- Yan, Hang , et al. “TENER: Adapting Transformer Encoder for Named Entity Recognition.” (2019).

2. 微博实体数据集

数据集简介：

WeiboNER是根据新浪微博2013年11月至2014年12月间历史数据筛选过滤生成，包含1890条微博消息，基于LDC2014的DEFT ERE的标注标准
进行标注。该数据集实体类别分为人物，机构组织，地址和地缘政治实体4个类别，并且每个类别可细分为特指（NAM，如“张三”标签为“PER.NAM”）和泛指（NOM，如“男人”标签为“PER.NOM”）。
数据集详情：

名称规模创建日期作者论文下载评测
WeiboNER 1890条微博消息 2015 Nanyun Peng original
revised 链接链接
基于该数据集发表的论文：
- Peng, Nanyun, and Mark Dredze. “Named entity recognition for chinese social media with jointly trained embeddings.” Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015.
- He, Hangfeng, and Xu Sun. “F-score driven max margin neural network for named entity recognition in chinese social media.” arXiv preprint arXiv:1611.04234 (2016).
- Zhang, Yue , and J. Yang . “Chinese NER Using Lattice LSTM.” (2018).
- Cao, Pengfei , et al. “Adversarial Transfer Learning for Chinese Named Entity Recognition with Self-Attention Mechanism.” Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing 2018.
- Yan, Hang , et al. “TENER: Adapting Transformer Encoder for Named Entity Recognition.” (2019).

3. 简历实体数据集

数据集简介：

Resume NER是根据新浪财经网关于上市公司的高级经理人的简历摘要数据，进行筛选过滤和人工标注生成的。该数据集包含1027份简历摘要，实体标注分为人名、国籍、籍贯、种族、专业、学位、机构、职称等8个类别。
数据集详情：

名称规模创建日期作者论文下载评测
Resume NER 1027份简历 2018年 Yue Zhang 链接链接 N/A

基于该数据集发表的论文：
- Zhang, Yue, and Jie Yang. “Chinese NER Using Lattice LSTM.” Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2018.
- Yan, Hang , et al. “TENER: Adapting Transformer Encoder for Named Entity Recognition.” (2019).

4. 细粒度实体数据集

数据集简介：

CLUENER2020是根据清华大学开源的文本分类数据集THUCNEWS，进行筛选过滤、实体标注生成的。该数据集包含组织、人名、地址、公司、政府、书籍、游戏、电影、职位、景点等10个实体类别，且实体类别分布较为均衡。
数据集详情：

名称规模创建日期单位论文下载评测
CLUENER2020 训练集10748个句子，验证集1343个句子 2020年 CLUEbenchmark 链接链接链接

5. Yidu-S4K：医疗命名实体识别数据集

数据集简介：

Yidu-S4K 数据集源自CCKS 2019 评测任务一，即“面向中文电子病历的命名实体识别”的数据集，包括两个子任务：
- 医疗命名实体识别：由于国内没有公开可获得的面向中文电子病历医疗实体识别数据集，本年度保留了医疗命名实体识别任务，对2017年度数据集做了修订，并随任务一同发布。本子任务的数据集包括训练集和测试集。
- 医疗实体及属性抽取（跨院迁移）：在医疗实体识别的基础上，对预定义实体属性进行抽取。本任务为迁移学习任务，即在只提供目标场景少量标注数据的情况下，通过其他场景的标注数据及非标注数据进行目标场景的识别任务。本子任务的数据集包括训练集（非目标场景和目标场景的标注数据、各个场景的非标注数据）和测试集（目标场景的标注数据）。
数据集详情：

名称规模创建日期单位论文下载评测
Yidu-S4K 2019年医渡云 NaN 链接 NaN

博客等级

码龄11年

44
原创

69
点赞

229
收藏

13
粉丝

关注

私信

分类专栏

最新评论

中文实体识别数据集
Mr-Apple: links https://github.com/jiesutd/LatticeLSTM/blob/master/data/demo.dev.char demo.dev.char文件中的标签 PER ORG GPE LOC
中文实体识别数据集
Mr-Apple: links https://github.com/hltcoe/golden-horse/blob/master/data/weiboNER_2nd_conll.dev 文件weiboNER.conll,,weiboNER_2nd_conl中的标签 PER.NAM GPE.NAM LOC.NOM ORG.NOM
中文词性标注数据集
tndic: 你好，请问你获得了相关的数据集了吗，可以分享一份吗，非常感谢。
中文词性标注数据集
Chainszz: 您好，请问您有相关的数据集吗，可以分享一份吗，非常感谢。
最好的正则表达式学习整理
CSDN-Ada助手: 你的文章质量不错，值得学习！但还有一点小瑕疵，具体如下：(1)使用更多的站内链接；(2)使用标准目录。

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。