数据集

从数据中学习,首先需要有数据。

我们在学习机器学习或者数据挖掘方法的时候,想应用各种算法,我们首先的需要有数据,因为有了数据,我们才好做数据准备、数据预处理、数据分析和数据建模等工作。

本文分享一些公开数据集,我们可以在这些数据集上开展各种学习算法的工作。

1 R语言自带数据集

运行如下命令

 
 
  1. library(help = "datasets")

部分结果如下;

对于具体数据集的理解,可以查看相应帮助文档。
命令如下

 
 
  1. help(Titanic)

帮助文档页面,部分内容如下:

这个数据集在Kaggle竞赛平台上面是一个典型的数据集。
另外,R语言的扩展包里面也会有一些自带的数据集可以使用,前提是要先安装和加载这个R包

2 Kaggle竞赛平台上面的数据集

Kaggle竞赛平台网址:https://www.kaggle.com/
注册好后,就可以进入查看各种数据竞赛所提供的数据集,包括训练数据集和测试数据集,都是标准的csv格式。
例如,Titanic的竞赛项目数据如下:

3 UCI机器学习库数据集

UCI机器学习库数据集网址:http://archive.ics.uci.edu/ml/index.html
下载次数最多的数据集

有了这些公开的数据集,我们就可以研究学习算法和应用学习算法了。在实际的工作过程中,我们就是把这些公开的数据集换成具体业务问题所对应的数据,这是我们需要做业务理解和数据理解工作,后续的过程与基于公开数据集所做的工作流程和方法论一样。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值