数据集汇总
一、免费大数据存储库的网站
1、深度学习数据集收集网站
http://deeplearning.net/datasets/**
收集大量的各深度学习相关的数据集,但并不是所有开源的数据集都能在上面找到相关信息。
2、Tiny Images Dataset
http://horatio.cs.nyu.edu/mit/tiny/data/index.html
包含8000万的32x32图像,CIFAR-10和CIFAR-100便是从中挑选的。
3、CoPhIR
http://cophir.isti.cnr.it/whatis.html
雅虎发布的超大Flickr数据集,包含1亿多张图片。
4、MirFlickr1M
http://press.liacs.nl/mirflickr/
Flickr数据集中挑选出的100万图像集。
5、SBU captioned photo dataset
http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/
Flickr的一个子集,包含100万的图像集。
6、NUS-WIDE
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm
Flickr中的27万的图像集。
7、Large-Scale Image Annotation using Visual Synset(ICCV 2011)
http://cpl.cc.gatech.edu/projects/VisualSynset/
机器标注的一个超大规模数据集,包含2亿图像。
8、SUN dataset
http://people.csail.mit.edu/jxiao/SUN/
包含13万的图像的数据集。
9、MSRA-MM
http://research.microsoft.com/en-us/projects/msrammdata/
包含100万的图像,23000视频;微软亚洲研究院出品,质量应该有保障。
10、其它:
Wikipedia:Database :向感兴趣的用户提供所有可用的内容的免费副本。可以得到多种语言的数据。内容连同图片可以下载。
Common crawl:所有人都可以访问的开放的网络。这个数据保存在亚马逊s3bucket中,请求者可能花费一些钱来访问它。
EDRM File Formats Data Set:由381个文件夹200种文件格式组成。
Apache Mahout:有许多免费的和付费的语料库语料。
EDRM Enron Email Data Set v2:由安然公司邮件信息和附件组成,存在两组可下载的压缩文件中:XML和PST。
ClueWeb09:用来支持信息检索和相关人类语言技术研究的资料库。它包含了从2009年1月到2月间收集的大约10亿个网页,包含10种语言。资料库被若干TREC会议的追踪检测使用。
DMOZ:最大的、最全面的人工编辑的开放式网站目录。它收集了不同类型的网站链接。Dmoz是互联网搜索引擎的一个主要来源。
theinfo.org:这是一个大数据集网站,在这里学者、设计师、艺术家等可以交流技巧和窍门,一起开发和共享工具,并开始整合他们独有的项目。
Project Gutenberg:提供超过36000免费电子书的下载,可以下载到个人电脑、Kindle, Android, iOS or 或其他便携式设备。
Million song data set:与tracks 和艺术家有关的数据。
AWS (Amazon Web Services) Public Data Sets:提供了可以无缝融入AWS(亚马逊网络服务)云应用的公共数据集的集中存储库。
BigML big list of public data s