weka学习比较好的网址

最流行的4个机器学习数据集

 

机器学习算法需要作用于数据,而数据的本质则决定了应用的机器学习算法是否合适,而数据的质量也会决定算法表现的好坏程度。所以会研究数据,会分析数据很重要。本文作为学习研究数据系列博文的开篇,列举了4个最流行的机器学习数据集。

Iris

Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(SetosaVersicolourVirginica)三个种类中的哪一类。

数据集特征:

多变量

记录数:

150

领域:

生活

属性特征:

实数

属性数目:

4

捐赠日期

1988-07-01

相关应用:

分类

缺失值?

网站点击数:

563347

Adult

该数据从美国1994年人口普查数据库抽取而来,可以用来预测居民收入是否超过50K$/year。该数据集类变量为年收入是否超过50k$,属性变量包含年龄,工种,学历,职业,人种等重要信息,值得一提的是,14个属性变量中有7个类别型变量。

数据集特征:

多变量

记录数:

48842

领域:

社会

属性特征:

类别型,整数

属性数目:

14

捐赠日期

1996-05-01

相关应用:

分类

缺失值?

网站点击数:

393977

Wine

这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。

数据集特征:

多变量

记录数:

178

领域:

物理

属性特征:

整数,实数

属性数目:

13

捐赠日期

1991-07-01

相关应用:

分类

缺失值?

网站点击数:

337319

Car Evaluation

这是一个关于汽车测评的数据集,类别变量为汽车的测评,(unaccACCgoodvgood)分别代表(不可接受,可接受,好,非常好),而6个属性变量分别为「买入价」,「维护费」,「车门数」,「可容纳人数」,「后备箱大小」,「安全性」。值得一提的是6个属性变量全部是有序类别变量,比如「可容纳人数」值可为「24more」,「安全性」值可为「low, med, high」。

数据集特征:

多变量

记录数:

1728

领域:

N/A

属性特征:

类别型

属性数目:

6

捐赠日期

1997-06-01

相关应用:

分类

缺失值?

网站点击数:

272901

小结

通过比较以上4个数据集的差异,简单地总结:当需要试验较大量的数据时,我们可以想到「Adult」;当想研究变量之间的相关性时,我们可以选择变量值只为整数或实数的「Iris」和「Wine」;当想研究logistic回归时,我们可以选择类变量值只有两种的「Adult」;当想研究类别变量转换时,我们可以选择属性变量为有序类别的「Car Evaluation」。更多的尝试还需要对这些数据集了解更多才行。

Reference:

(1)Weka C4.5算法使用例子:http://wenku.baidu.com/link?url=4i4k3plP4BSb_6-SpohcuE13_xSm14O5atwLWwgDz-X_xP_9TL8KZ2nngM6ZIBwtgjtTMzSElCDreRDSL3tzhGz3tcPHB3rRXjSOxe320_C

(2)weka入门:http://blog.sina.com.cn/s/blog_46a241200100vvoc.html

(3)WEKA中文详细教程:http://wenku.baidu.com/link?url=hsdiYnNmPLFKS740fHHkAqi1RSpycM8JtV9QCcbntpPhsJzckNES6d3AKicHCGbLz774kuRfM91NO4Fb8o31-13T4-fGvLTGViulHaYJvYe&qq-pf-to=pcqq.c2c

UCI数据集下载网址:http://archive.ics.uci.edu/ml/machine-learning-databases/


UCI数据集关于arff的格式数据下载链接:http://download.csdn.net/detail/u010343650/9728695


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值