500W条NLPIR twitter内容语料库

NLPIR twitter内容语料库说明
 
1.NLPIR twitter内容语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集抽取从twitter中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(www.nlpir.org)予以公开共享其中的500万条数据(目前已有数据接近1亿,已经剔除了大量的冗余与机器信息)
2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士kevinzhang@bit.edu.cn予以删除,对给您造成的困扰表示抱歉,并希望谅解;
3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR twitter内容语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。
4.字段格式说明:
语料为mongodb导出的json格式,大约500万条Twitter数据(其中过滤了部分敏感的Twitter状态,占7%左右),每行为一个json对象,对象中一共有三个字段,分别是user_id      用户的id,我们对语料包中Twitter的用户名进行隐藏操作,取而代之的则是一个标记用户的int值id
text         这条Twitter状态的内容
created_at   此条Twitter状态所发布的时间,为距离格林尼治时间1970年1月1日0时开始所经过的秒数

可以运行以下命令,直接使用mongodb自带的导入程序导入到mongodb
mongoimport -d <数据库名> -c tweets tweets.utf8
 

下载地址: http://vdisk.weibo.com/s/yW3j3   (解压缩密码,请关注微博 NLPIR官方微博  http://weibo.com/bigdatasearch,私信获取。)

转载于:https://my.oschina.net/u/944984/blog/125876

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值