新时代人民日报分词语料库(NEPD)向学术界免费开放(转载)

语料库是由人工或机器标注好的真实语言材料组成的数据集,是开展与自然语言有关研究的有效工具和手段,在当前同时也是人工智能算法的训练集,直接决定了机器学习的运算效果。

在汉语通用语料方面,由北京大学计算语言研究所俞士汶先生主持构建的1998年1月人民日报语料为精加工人工语料,在业内最具代表性,影响力也最大,曾获得过包括国家科技进步二等奖在内的一系列奖项。但是,随着20多年时光的流逝,业界迫切需要与时代发展同步的新语料。在此背景下,南京农业大学人文与社会计算研究中心以2015上半年(1-6月)及2016年1月、2017年1月、2018年1月共9个月的《人民日报》发表的全部文章为对象,构建了新版人民日报语料——新时代人民日报分词语料(简称New Era People’s Daily Segmented Corpus,NEPD)。NEPD规模现已超过2300万字,全部由人工标注,是目前世界上规模最大的汉语精加工通用语料库。

NEPD免费向学术界开放共享,并且还将持续补充最新语料,进一步详细信息请访问:http://corpus.njau.edu.cn/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值