干货|开放数据集

各位童鞋,有没有碰到这种情况?

看了一篇很好的文章,作者提供了理论上很好的说明,而且还有代码(大笑脸),此时正是马上码起来,测试验证的时候,然而......好像缺少了点啥——数据集(沮丧脸)。

当你有需求要结合某种算法先做个POC(俗名DEMO)时,突然发现,此时手上要是有份现成的数据那该多好!!

这里有这样一份关于机器学习、文本分析、数据挖掘等相关的数据集,也许正好解你的燃眉之急,至少可以为你省下寻找数据的时间。


1、国内互联网数据

链接: https://pan.baidu.com/s/1pLNx5rX 密码: b9px

包括:新浪微博消息数据集,Web信息抽取数据集,关键字搜索的历史日志文件,国内知名电商平台全网商品信息及评论,新浪微博个人微博数据,新浪微博情感200万条,中文词语搭配库,新浪微博3.5亿用户关系数据(样例),某南方城市出租车GPS位置数据,带有转发和情感标签的微博数据... ... 

用途:机器学习相关算法,NLP基础功能(如情感分析,实体抽取等等),知识构建等等



2、用于分类的数据

链接: https://pan.baidu.com/s/1qXMzr5q 密码: a2jr



3、维基百科数据

链接: https://pan.baidu.com/s/1jIF0lYA 密码: iges



4、京东自营销售数据(2015)

链接: https://pan.baidu.com/s/1slkdR5N 密码: syn9



5、微软数据

链接: https://pan.baidu.com/s/1mhBchnU 密码: ukca



6、百度词条数据

链接: https://pan.baidu.com/s/1pKTSPo3 密码: y8jv



7、1998~2009年经济科普数据


链接: https://pan.baidu.com/s/1qXQ2Zwg 密码: w2yw



(注:在此公众号回复“数据集20171211”可获得一键链接。)


更多机器学习、NLP相关的书籍、视频等资料,都在这里!

长按识别二维码关注


  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值