大数据领域机器学习或推荐系统数据集大全

最新推荐文章于 2024-08-08 08:07:25 发布

不愿做秃头男孩

最新推荐文章于 2024-08-08 08:07:25 发布

阅读量1.9k

点赞数

分类专栏：算法大数据文章标签： ML数据集

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Mr_Fjl/article/details/103504131

版权

数据集汇总

一、免费大数据存储库的网站

1、深度学习数据集收集网站

http://deeplearning.net/datasets/**

收集大量的各深度学习相关的数据集，但并不是所有开源的数据集都能在上面找到相关信息。

2、Tiny Images Dataset
http://horatio.cs.nyu.edu/mit/tiny/data/index.html

包含8000万的32x32图像，CIFAR-10和CIFAR-100便是从中挑选的。

3、CoPhIR
http://cophir.isti.cnr.it/whatis.html

雅虎发布的超大Flickr数据集，包含1亿多张图片。

4、MirFlickr1M
http://press.liacs.nl/mirflickr/

Flickr数据集中挑选出的100万图像集。

5、SBU captioned photo dataset
http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/

Flickr的一个子集，包含100万的图像集。

6、NUS-WIDE
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm

Flickr中的27万的图像集。

7、Large-Scale Image Annotation using Visual Synset(ICCV 2011)
http://cpl.cc.gatech.edu/projects/VisualSynset/

机器标注的一个超大规模数据集，包含2亿图像。

8、SUN dataset
http://people.csail.mit.edu/jxiao/SUN/

包含13万的图像的数据集。

9、MSRA-MM
http://research.microsoft.com/en-us/projects/msrammdata/

包含100万的图像，23000视频；微软亚洲研究院出品，质量应该有保障。

10、其它：

Wikipedia:Database ：向感兴趣的用户提供所有可用的内容的免费副本。可以得到多种语言的数据。内容连同图片可以下载。

Common crawl：所有人都可以访问的开放的网络。这个数据保存在亚马逊s3bucket中，请求者可能花费一些钱来访问它。

EDRM File Formats Data Set：由381个文件夹200种文件格式组成。

Apache Mahout：有许多免费的和付费的语料库语料。

EDRM Enron Email Data Set v2：由安然公司邮件信息和附件组成，存在两组可下载的压缩文件中：XML和PST。

ClueWeb09：用来支持信息检索和相关人类语言技术研究的资料库。它包含了从2009年1月到2月间收集的大约10亿个网页，包含10种语言。资料库被若干TREC会议的追踪检测使用。

DMOZ：最大的、最全面的人工编辑的开放式网站目录。它收集了不同类型的网站链接。Dmoz是互联网搜索引擎的一个主要来源。

theinfo.org：这是一个大数据集网站，在这里学者、设计师、艺术家等可以交流技巧和窍门，一起开发和共享工具，并开始整合他们独有的项目。

Project Gutenberg：提供超过36000免费电子书的下载，可以下载到个人电脑、Kindle, Android, iOS or 或其他便携式设备。

Million song data set：与tracks 和艺术家有关的数据。

AWS (Amazon Web Services) Public Data Sets：提供了可以无缝融入AWS（亚马逊网络服务）云应用的公共数据集的集中存储库。

BigML big list of public data s

最低0.47元/天解锁文章

不愿做秃头男孩

关注

0
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。