分词数据集
1. SIGHAN 2005数据集
-
数据集简介:
SIGHAN 2005数据集国际中文自动分词评测(简称SIGHAN评测)整合多个机构的分词数据集构成。该数据集由中国微软研究所、北京大学、香港城市大学、台湾中央研究院联合发布,用以进行中文分词模型的训练与评测。其中 AS 和 CityU 为繁体中文数据集,PKU 和 MSR 为简体中文数据集。
-
数据集详情:
名称 规模 创建日期 单位 论文 下载 评测 MSR 2368391词,4050469字 2005年 微软亚洲研究院 链接 SIGHAN2005 icwb2 result summary PKU 1109947词,1826448字 2005年 北京大学 链接 SIGHAN2005 icwb2 result summary AS 5449698词,8368050字 2005年 台湾中央研究院 链接 SIGHAN2005 icwb2 result summary CityU 1455629词,2403355字 2005年 香港城市大学 链接 SIGHAN2005 icwb2 result summary -
基于该数据集发表的论文:
-
Chen X , Xipeng Qiu∗, Zhu C , et al. Long Short-Term Memory Neural Networks for Chinese Word Segmentation[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015.
Cai D , Zhao H . Neural Word Segmentation Learning for Chinese[J]. 2016. -
Chen X , Shi Z , Qiu X , et al. Adversarial Multi-Criteria Learning for Chinese Word Segmentation[J]. 2017.
-
Jie Yang, Yue Zhang, Fei Dong. Neural Word Segmentation with Rich Pretraining[C]// The 55th Annual Meeting of the Association for Computational Linguistics (ACL). 2017.
-
Ma J , Ganchev K , Weiss D . State-of-the-art Chinese Word Segmentation with Bi-LSTMs[J]. 2018.
-
Huang W , Cheng X , Chen K , et al. Toward Fast and Accurate Neural Chinese Word Segmentation with Multi-Criteria Learning[J]. 2019.
-
2. 微博分词数据集
-
数据集简介:
Weibo分词数据集NLPCC2016分词赛道使用的数据集,该数据集由复旦大学根据新浪微博的数据标注生成,包含更多口语化的文本。该数据集包含经济,运动,环境等多种主题的语料,并且除了训练数据以外,该数据集还提供了相关背景数据,以供结合无的监督方法进行训练和使用。验证集和测试集的OOV率分别为6.82%和6.98%。
-
数据集详情:
名称 规模 创建日期 作者 论文 下载 评测 weibo 30779个句子,652740词,1077854字 2016年 Xipeng Qiu 链接 链接 N/A -
基于该数据集发表的论文:
Luo, Ruixuan, et al. “PKUSEG: A Toolkit for Multi-Domain Chinese Word Segmentation.” arXiv preprint arXiv:1906.11455 (2019).