中文分词多领域语料库

本文作者分享了当前可用的中文分词语料库,针对研究中遇到的数据难题,如坏链、下载困难等,提供了经过处理的统一格式的语料资源。包括数据的预处理步骤,如英文单词和数字替换、繁体转简体、去重等,并给出了下载链接。
摘要由CSDN通过智能技术生成

中文分词多领域语料库

各位NLPer,大家好!
如果你还在从事中文分词领域的相关研究,你一定会发现,随着时间推移,中文分词的研究越来越少,BERT出现后,以字为粒度的方法盛行,有关中文分词的论文已经很少出现在期刊、顶会之中。
研究领域小众是常事,科研也从不应该盲目扎堆于热点技术之中,但是目前中文分词相关研究,已经许久没有新数据可用,旧数据也逐渐坏链,github频频登陆失败,更别提下载语料,这些都让神经网络相关研究无从下手。
因此,我总结了目前公开的可用于分词的语料库,将其分享出来,以供各位学者参考。
特别感谢:@何晗 本文原始数据皆出自其论文的github,使用请谨遵要求,标明出处。

[1] He H , Wu L , Yan H , et al. Effective Neural Solution for Multi-Criteria Word Segmentation[C]. Proceedings of the Second International Conference on Smart Computing and Informatics, 2018

语料来自:
语料出处

数据处理

由于语料库来自五湖四海,数据格式并不同,还有两个语料库为繁体,也有许多命名实体识别或词性标注的标签(NER恐成序列标注类任务唯一拿得出手的任务,CWS和POS感觉都没人

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值