ChineseDiachronicCorpus项目,大规模中文历时语料库

ChineseDiachronicCorpus

ChineseDiachronicCorpus,中文历时语料库,横跨六十余年,包括腾讯历时新闻2009-2016,人民日报历时语料1946-2003,参考消息历时语料1957-2002。基于历时流通语料库,可用于历时语言变化计算、语言监测、社会文化变迁研究提供基础性的语料支持。

为什么中文开放数据集如此之难

有的时候我在想,chineseldc基本停滞了,后面除了gluedata benchmark,国内数据集开源为什么这么难?我想了一想,不当当是侵权的问题,有很多原因【不一定对】:
1)研究导向。数据集属于很底层、初级的工作,头部研究注意力放在深度学习上(近年来有好转,比如ccl近2年的best paper 都有侧重),基础数据没人做;
2)版权保护。虽然国家没有出台官方的抓取即违法的政策,但这是大趋势,这个也制约了数据的发布和公开。
3)研究保护。国内开源生态不乐观,发出去,就等着被抄,花费大量人力、物力、财力标注的语料,可能发布出去就直接被使用,形成竞争壁垒。
4)缺乏引导。近年来有意识的在搞平台,比如百度搞千言,民间搞glue benchmark,但最怕做成摆货架。 目前开放了很多的基础评测资源,大大多都是针对英文的【没办法,要国际化,要文章】。
6)缺乏统一的资源开放标准。资源开放标准的制定、推行,是一个自顶向下的行为,制定可行的标准,

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值