数据集

最新推荐文章于 2024-06-17 22:27:32 发布

HuFeiHu-Blog

最新推荐文章于 2024-06-17 22:27:32 发布

阅读量772

点赞数

分类专栏：数据挖掘模式识别机器学习

机器学习同时被 3 个专栏收录

76 篇文章 1 订阅

订阅专栏

72 篇文章 1 订阅

订阅专栏

42 篇文章 0 订阅

订阅专栏

从数据中学习，首先需要有数据。

我们在学习机器学习或者数据挖掘方法的时候，想应用各种算法，我们首先的需要有数据，因为有了数据，我们才好做数据准备、数据预处理、数据分析和数据建模等工作。

本文分享一些公开数据集，我们可以在这些数据集上开展各种学习算法的工作。

1 R语言自带数据集

运行如下命令

 
 library(help = "datasets")

部分结果如下；

对于具体数据集的理解，可以查看相应帮助文档。
命令如下

 
 help(Titanic)

帮助文档页面，部分内容如下：

这个数据集在Kaggle竞赛平台上面是一个典型的数据集。
另外，R语言的扩展包里面也会有一些自带的数据集可以使用，前提是要先安装和加载这个R包

2 Kaggle竞赛平台上面的数据集

Kaggle竞赛平台网址：https://www.kaggle.com/
注册好后，就可以进入查看各种数据竞赛所提供的数据集，包括训练数据集和测试数据集，都是标准的csv格式。
例如,Titanic的竞赛项目数据如下：

3 UCI机器学习库数据集

UCI机器学习库数据集网址：http://archive.ics.uci.edu/ml/index.html
下载次数最多的数据集

有了这些公开的数据集，我们就可以研究学习算法和应用学习算法了。在实际的工作过程中，我们就是把这些公开的数据集换成具体业务问题所对应的数据，这是我们需要做业务理解和数据理解工作，后续的过程与基于公开数据集所做的工作流程和方法论一样。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。