ChineseDiachronicCorpus项目，大规模中文历时语料库

最新推荐文章于 2024-04-02 10:56:56 发布

「已注销」

最新推荐文章于 2024-04-02 10:56:56 发布

阅读量1.4k

点赞数 1

分类专栏：自然语言处理人工智能语言资源文章标签：语言资源历时资源语料库研究

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lhy2014/article/details/112723879

版权

ChineseDiachronicCorpus

ChineseDiachronicCorpus，中文历时语料库，横跨六十余年，包括腾讯历时新闻2009-2016，人民日报历时语料1946-2003，参考消息历时语料1957-2002。基于历时流通语料库，可用于历时语言变化计算、语言监测、社会文化变迁研究提供基础性的语料支持。

为什么中文开放数据集如此之难

有的时候我在想，chineseldc基本停滞了，后面除了gluedata benchmark，国内数据集开源为什么这么难？我想了一想，不当当是侵权的问题，有很多原因【不一定对】：
1）研究导向。数据集属于很底层、初级的工作，头部研究注意力放在深度学习上（近年来有好转，比如ccl近2年的best paper 都有侧重），基础数据没人做；
2）版权保护。虽然国家没有出台官方的抓取即违法的政策，但这是大趋势，这个也制约了数据的发布和公开。
3）研究保护。国内开源生态不乐观，发出去，就等着被抄，花费大量人力、物力、财力标注的语料，可能发布出去就直接被使用，形成竞争壁垒。
4）缺乏引导。近年来有意识的在搞平台，比如百度搞千言，民间搞glue benchmark，但最怕做成摆货架。目前开放了很多的基础评测资源，大大多都是针对英文的【没办法，要国际化，要文章】。
6）缺乏统一的资源开放标准。资源开放标准的制定、推行，是一个自顶向下的行为，制定可行的标准，

最低0.47元/天解锁文章

「已注销」

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。