分词数据集

分词数据集

1. SIGHAN 2005数据集

  • 数据集简介:

    SIGHAN 2005数据集国际中文自动分词评测(简称SIGHAN评测)整合多个机构的分词数据集构成。该数据集由中国微软研究所、北京大学、香港城市大学、台湾中央研究院联合发布,用以进行中文分词模型的训练与评测。其中 AS 和 CityU 为繁体中文数据集,PKU 和 MSR 为简体中文数据集。

  • 数据集详情:

    名称规模创建日期单位论文下载评测
    MSR2368391词,4050469字2005年微软亚洲研究院链接SIGHAN2005icwb2 result summary
    PKU1109947词,1826448字2005年北京大学链接SIGHAN2005icwb2 result summary
    AS5449698词,8368050字2005年台湾中央研究院链接SIGHAN2005icwb2 result summary
    CityU1455629词,2403355字2005年香港城市大学链接SIGHAN2005icwb2 result summary
  • 基于该数据集发表的论文

    • Chen X , Xipeng Qiu∗, Zhu C , et al. Long Short-Term Memory Neural Networks for Chinese Word Segmentation[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015.
      Cai D , Zhao H . Neural Word Segmentation Learning for Chinese[J]. 2016.

    • Chen X , Shi Z , Qiu X , et al. Adversarial Multi-Criteria Learning for Chinese Word Segmentation[J]. 2017.

    • Jie Yang, Yue Zhang, Fei Dong. Neural Word Segmentation with Rich Pretraining[C]// The 55th Annual Meeting of the Association for Computational Linguistics (ACL). 2017.

    • Ma J , Ganchev K , Weiss D . State-of-the-art Chinese Word Segmentation with Bi-LSTMs[J]. 2018.

    • Huang W , Cheng X , Chen K , et al. Toward Fast and Accurate Neural Chinese Word Segmentation with Multi-Criteria Learning[J]. 2019.

2. 微博分词数据集

  • 数据集简介:

    Weibo分词数据集NLPCC2016分词赛道使用的数据集,该数据集由复旦大学根据新浪微博的数据标注生成,包含更多口语化的文本。该数据集包含经济,运动,环境等多种主题的语料,并且除了训练数据以外,该数据集还提供了相关背景数据,以供结合无的监督方法进行训练和使用。验证集和测试集的OOV率分别为6.82%和6.98%。

  • 数据集详情:

    名称规模创建日期作者论文下载评测
    weibo30779个句子,652740词,1077854字2016年Xipeng Qiu链接链接N/A
  • 基于该数据集发表的论文

    Luo, Ruixuan, et al. “PKUSEG: A Toolkit for Multi-Domain Chinese Word Segmentation.” arXiv preprint arXiv:1906.11455 (2019).

  • 7
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值