自学深度学习，这些途径可以获取数据集

最新推荐文章于 2024-06-30 22:08:04 发布

深度学习世界

最新推荐文章于 2024-06-30 22:08:04 发布

阅读量9k

点赞数 7

来源：景略集智

学好机器学习的关键是用许多不同的数据集来练习。因为对不同的问题，需要有不同的数据准备和建模方法。我们首先分享一些有趣的数据集，权当练习资源，然后会说一说可以去哪里获得干净的高质量数据集。

20个趣味数据集

在Medium上有位叫Oliver Cameron的程序猿小哥特地分享了20个有趣的数据集，比如UFO目击报告等。整理如下：

20 Newsgroups

从20个网络新闻组中收集的20000条文本数据，可用于文本分析、分类等。

文件大小：61.6 M

http://kdd.ics.uci.edu/databases/20newsgroups/20newsgroups.data.html

Amazon Reviews

从亚马逊网站上获取的多达1亿4千2百万条顾客的购物评论，可用于情感分析、推荐系统研究等等。

文件大小：20G

http://jmcauley.ucsd.edu/data/amazon/

Football Strategy

包含数千个足球的踢球场景，用于帮足球教练做出最优决策。

文件大小：876 KB

https://link.zhihu.com/?target=https%3A//www.crowdflower.com/wp-content/uploads/2016/03/Football-Scenarios-DFE-832307.csv

Horses for Courses

赛马数据，用于预测赛马结果。

文件大小：19 M

https://www.kaggle.com/lukebyrne/horses-for-courses

Human Activity Recognition with Smartphones

识别人类日常活动比如走路、坐下等的感应数据。

文件大小：25 M

https://www.kaggle.com/uciml/human-activity-recognition-with-smartphones

Labeled Faces in the Wild

1万3千张附有人物名字的人脸照片，可用于人脸识别训练、多远训练，也可作为测试集。

文件大小：173 M

http://vis-www.cs.umass.edu/lfw/

National Survey on Drug Use and Health

根据健康调查问题预测药物使用状况。

文件大小：2 G

http://www.icpsr.umich.edu/icpsrweb/ICPSR/studies/34933

NORB 3D Object Recognition

50个玩具雕塑的立体图像数据集，可用于图像中的3D物体识别。

文件大小：包含多个文件，约5G

https://cs.nyu.edu/~ylclab/data/norb-v1.0/

One Million Songs

1百万首歌曲的音频特征及元数据的数据集，可用于音频识别与分类。

文件大小：1.8 G

https://labrosa.ee.columbia.edu/millionsong/

SMS Spam Collection

收集了5574份SMS文本数据，部分是正常内容，部分是垃圾内容，可用于训练垃圾过滤系统。

文件大小：204 KB

http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

Hate Speech Identification

收集的推特推文样本，已经根据是否具有攻击性和包含仇恨内容进行了判断，可用于训练社交网络内容审核。

文件大小：2.66 M

下载地址：https://www.crowdflower.com/wp-content/uploads/2016/03/twitter-hate-speech-classifier-DFE-a845520.csv

Hidden Beauty of Flickr Pictures

1万5千个Flikr照片ID，均以按照美观度进行了分级，可用于图像分析。

文件大小：138 KB，需使用Flikr API获取照片。

http://www.di.unito.it/~schifane/dataset/beauty-icwsm15/

Yahoo Instant Messenger Friends Connectivity Graph

雅虎用户之间使用雅虎Messenger相互之间联系和交流的数据，可用于识别重要的社交联系和社交中有影响力的人。

文件大小：28 M

http://webscope.sandbox.yahoo.com/catalog.php?datatype=g

Record of Heart Sound

正常心跳和不正常心跳的数据，用于识别心脏杂音、预测心脏病等。

文件大小：47.7 M

http://mldata.org/repository/data/viewslug/record-of-heart-sound/

Banknote Dataset

根据给定钞票的数个度量的照片预测是真钞还是假钞。它是一个二元分类问题。每个类的观测值数量不均等。一共有 1372 个观察值，4个输入变量和1个输出变量。

文件大小：45 KB

http://archive.ics.uci.edu/ml/datasets/banknote+authentication

Wine Quality

白葡萄酒和红葡萄酒的化学属性和酒的品质，用于酒的分类问题。

文件大小：共3个文件，343KB

http://archive.ics.uci.edu/ml/datasets/Wine+Quality

Mushroom Identification

根据蘑菇的特点进行假设性地分类蘑菇属于有毒还是可食用。

文件大小：共3个文件，480 KB

http://archive.ics.uci.edu/ml/datasets/Mushroom

UFO Reports

一共8万份历史上的UFO事件报告，可用于UFO事件的分类和回归分析。该数据集以经过标准化处理。

文件大小：14.6 M

https://github.com/planetsig/ufo-reports

Militarized Interstate Disputes

过去200年世界各地冲突和威胁的数据集，包括军事行动、伤亡状况、敌对程度和冲突结果等，可用于地区冲突事件的建模与分析。

文件大小：962 KB

http://www.correlatesofwar.org/data-sets/MIDs

NBA & MLB Stats

过去十几年各个赛季NBA和MLB各大球队与球员的状态（截止到2017年），可用于NBA及超级碗大型赛事的预测。

文件大小：包含多个数据集

http://www.dougstats.com/

俗话说授人以鱼不如授人以渔嘛。看完这20个数据集后，我们再说一些发现数据集的好去处。不然等这20个数据集用完你肯定就把我忘了..

去哪里找高质量数据集？

在进行机器学习项目时，都希望能从数据集中的一些列预测出另一列，为了能做到这点，我们需要确保：

数据集不能太混乱——如果太混乱，我们需要花费大量时间清理数据。
要有个有趣的目标列作为预测目标。
其它变量对目标列有一定的解释力。

幸好，网上有一些专为机器学习准备的数据集，都预先经过了清理，能很快用来测试算法。我们可以去这些地方获取这样的干净数据集：

1. Kaggle

Kaggle是一个举办机器学习比赛的数据科学社区，网站上有很多有意思的数据集。可以通过参加Kaggle机器学习比赛来下载相关数据集。

Kaggle数据集地址：

https://www.kaggle.com/datasets

这里是Kaggle上举办的一些机器学习比赛：

https://www.kaggle.com/competitions

2. UCI Machine Learning Repository

UCI Machine Learning Repository可以说是互联网上资历最老的数据集来源之一，上面包含了各种各样的数据集，而且绝大部分数据集都很干净，可以直接应用于机器学习项目。无需注册就可下载：

http://mlr.cs.umass.edu/ml/datasets.html

3. Quandl

Quandl是一个专门针对经济学和金融学领域的数据集资源库，部分可免费下载，部分需要付费。对于预测经济指标和股票等这样的机器学习项目，Quandl上的数据集是很适合的资源：https://www.quandl.com/search

4. Socrata OpenData

Socrata OpenData包含很多干净的数据集，可以直接在浏览器上使用，也可以下载下来，主要是用作数据分析。

https://opendata.socrata.com/

此外，如果你对数据集的质量要求不是很严格，一些科技公司推出的数据集也是不错的资源：

亚马逊公共数据集：

https://aws.amazon.com/cn/datasets/?_encoding=UTF8&jiveRedirect=1

谷歌公共数据集：

https://cloud.google.com/bigquery/public-data/

BuzzFeed数据集：

https://github.com/BuzzFeedNews

最后推出一个重磅资源，大神 Antoine Miech 将 27 个视频数据集整合在了一起，包含人类手势、动作识别等十几个类型，基本上你想用的视频数据集都能在这里找到：

https://www.di.ens.fr/~miech/datasetviz/

好了，今天的车就先开到这里。快下车去找找自己需要的数据集吧！

点击下方“阅读原文”了解【大数据实验平台】

↓↓↓

深度学习世界

关注

7
点赞
踩
62

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫