机器学习4种不同数据集的优劣对比

最新推荐文章于 2023-06-29 17:44:25 发布

大圣众包平台

最新推荐文章于 2023-06-29 17:44:25 发布

阅读量6.3k

点赞数 1

分类专栏：程序员 IT 文章标签：机器学习算法大数据数据库数据

IT 同时被 2 个专栏收录

102 篇文章 2 订阅

订阅专栏

程序员

88 篇文章 1 订阅

订阅专栏

　数据源决定了机器学习算法，机器算法的选择好坏也决定了数据的分析质量等，因此，我们选择机器算法的时候，要首先弄懂各个机器学习数据集的优劣性，主要特点，方可着手处理，才能起到事半功倍的效果。下面随着大圣众包小编一起看看4种不同的机器学习数据集对比吧。

　　Iris

　　Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。通过花萼长度，花萼宽度，花瓣长度，花瓣宽度4个属性预测鸢尾花卉属于（Setosa，Versicolour，Virginica）三个种类中的哪一类。

　　Adult

　　该数据从美国1994年人口普查数据库抽取而来，可以用来预测居民收入是否超过50K$/year。该数据集类变量为年收入是否超过50k$，属性变量包含年龄，工种，学历，职业，人种等重要信息，值得一提的是，14个属性变量中有7个类别型变量。

　　Wine

　　这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。

　　CarEvaluation

　　这是一个关于汽车测评的数据集，类别变量为汽车的测评，（unacc，ACC，good，vgood）分别代表（不可接受，可接受，好，非常好），而6个属性变量分别为「买入价」，「维护费」，「车门数」，「可容纳人数」，「后备箱大小」，「安全性」。值得一提的是6个属性变量全部是有序类别变量，比如「可容纳人数」值可为「2，4，more」，「安全性」值可为「low,med,high」。

　　小结

　　通过比较以上4个数据集的差异，简单地总结：当需要试验较大量的数据时，我们可以想到「Adult」；当想研究变量之间的相关性时，我们可以选择变量值只为整数或实数的「Iris」和「Wine」；当想研究logistic回归时，我们可以选择类变量值只有两种的「Adult」；当想研究类别变量转换时，我们可以选择属性变量为有序类别的「CarEvaluation」。大圣众包小编建议更多的尝试还需要对这些数据集了解更多才行。