大数据领域机器学习或推荐系统数据集大全

数据集汇总

 

一、免费大数据存储库的网站

1、深度学习数据集收集网站

http://deeplearning.net/datasets/**

收集大量的各深度学习相关的数据集,但并不是所有开源的数据集都能在上面找到相关信息。

2、Tiny Images Dataset
http://horatio.cs.nyu.edu/mit/tiny/data/index.html

包含8000万的32x32图像,CIFAR-10和CIFAR-100便是从中挑选的。

3、CoPhIR
http://cophir.isti.cnr.it/whatis.html

雅虎发布的超大Flickr数据集,包含1亿多张图片。

4、MirFlickr1M
http://press.liacs.nl/mirflickr/

Flickr数据集中挑选出的100万图像集。

5、SBU captioned photo dataset
http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/

Flickr的一个子集,包含100万的图像集。

6、NUS-WIDE
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm

Flickr中的27万的图像集。

7、Large-Scale Image Annotation using Visual Synset(ICCV 2011)
http://cpl.cc.gatech.edu/projects/VisualSynset/

机器标注的一个超大规模数据集,包含2亿图像。

8、SUN dataset
http://people.csail.mit.edu/jxiao/SUN/

包含13万的图像的数据集。

9、MSRA-MM
http://research.microsoft.com/en-us/projects/msrammdata/

包含100万的图像,23000视频;微软亚洲研究院出品,质量应该有保障。

10、其它:

Wikipedia:Database :向感兴趣的用户提供所有可用的内容的免费副本。可以得到多种语言的数据。内容连同图片可以下载。

Common crawl:所有人都可以访问的开放的网络。这个数据保存在亚马逊s3bucket中,请求者可能花费一些钱来访问它。

EDRM File Formats Data Set:由381个文件夹200种文件格式组成。

Apache Mahout:有许多免费的和付费的语料库语料。

EDRM Enron Email Data Set v2:由安然公司邮件信息和附件组成,存在两组可下载的压缩文件中:XML和PST。

ClueWeb09:用来支持信息检索和相关人类语言技术研究的资料库。它包含了从2009年1月到2月间收集的大约10亿个网页,包含10种语言。资料库被若干TREC会议的追踪检测使用。

DMOZ:最大的、最全面的人工编辑的开放式网站目录。它收集了不同类型的网站链接。Dmoz是互联网搜索引擎的一个主要来源。

theinfo.org:这是一个大数据集网站,在这里学者、设计师、艺术家等可以交流技巧和窍门,一起开发和共享工具,并开始整合他们独有的项目。

Project Gutenberg:提供超过36000免费电子书的下载,可以下载到个人电脑、Kindle, Android, iOS or 或其他便携式设备。

Million song data set:与tracks 和艺术家有关的数据。

AWS (Amazon Web Services) Public Data Sets:提供了可以无缝融入AWS(亚马逊网络服务)云应用的公共数据集的集中存储库。

BigML big list of public data s

  • 0
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值