从数据中学习,首先需要有数据。
我们在学习机器学习或者数据挖掘方法的时候,想应用各种算法,我们首先的需要有数据,因为有了数据,我们才好做数据准备、数据预处理、数据分析和数据建模等工作。
本文分享一些公开数据集,我们可以在这些数据集上开展各种学习算法的工作。
1 R语言自带数据集
运行如下命令
library(help = "datasets")
部分结果如下;
对于具体数据集的理解,可以查看相应帮助文档。
命令如下
help(Titanic)
帮助文档页面,部分内容如下:
这个数据集在Kaggle竞赛平台上面是一个典型的数据集。
另外,R语言的扩展包里面也会有一些自带的数据集可以使用,前提是要先安装和加载这个R包
2 Kaggle竞赛平台上面的数据集
Kaggle竞赛平台网址:https://www.kaggle.com/
注册好后,就可以进入查看各种数据竞赛所提供的数据集,包括训练数据集和测试数据集,都是标准的csv格式。
例如,Titanic的竞赛项目数据如下:
3 UCI机器学习库数据集
UCI机器学习库数据集网址:http://archive.ics.uci.edu/ml/index.html
下载次数最多的数据集
有了这些公开的数据集,我们就可以研究学习算法和应用学习算法了。在实际的工作过程中,我们就是把这些公开的数据集换成具体业务问题所对应的数据,这是我们需要做业务理解和数据理解工作,后续的过程与基于公开数据集所做的工作流程和方法论一样。