机器学习4种不同数据集的优劣对比

88 篇文章 1 订阅

 数据源决定了机器学习算法,机器算法的选择好坏也决定了数据的分析质量等,因此,我们选择机器算法的时候,要首先弄懂各个机器学习数据集的优劣性,主要特点,方可着手处理,才能起到事半功倍的效果。下面随着大圣众包小编一起看看4种不同的机器学习数据集对比吧。

  Iris

  Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。

  Adult

  该数据从美国1994年人口普查数据库抽取而来,可以用来预测居民收入是否超过50K$/year。该数据集类变量为年收入是否超过50k$,属性变量包含年龄,工种,学历,职业,人种等重要信息,值得一提的是,14个属性变量中有7个类别型变量。

  Wine

  这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。

  CarEvaluation

  这是一个关于汽车测评的数据集,类别变量为汽车的测评,(unacc,ACC,good,vgood)分别代表(不可接受,可接受,好,非常好),而6个属性变量分别为「买入价」,「维护费」,「车门数」,「可容纳人数」,「后备箱大小」,「安全性」。值得一提的是6个属性变量全部是有序类别变量,比如「可容纳人数」值可为「2,4,more」,「安全性」值可为「low,med,high」。

  小结

  通过比较以上4个数据集的差异,简单地总结:当需要试验较大量的数据时,我们可以想到「Adult」;当想研究变量之间的相关性时,我们可以选择变量值只为整数或实数的「Iris」和「Wine」;当想研究logistic回归时,我们可以选择类变量值只有两种的「Adult」;当想研究类别变量转换时,我们可以选择属性变量为有序类别的「CarEvaluation」。大圣众包小编建议更多的尝试还需要对这些数据集了解更多才行。


  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
<项目介绍> 机器学习算法与应用大作业-基于预处理的小麦品的分类和聚类源码+数据+项目使用说明.zip 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到94.5分,放心下载使用! 该资源适合计算机相关专业(如人工智能、通信工程、自动化、软件工程等)的在校学生、老师或者企业员工下载,适合小白学习或者实际项目借鉴参考! 当然也可作为毕业设计、课程设计、课程作业、项目初期立项演示等。如果基础还行,可以在此代码基础之上做改动以实现更多功能。 本项目基于python实现了seeds数据集的预处理与分类、聚类任务,使用了PCA、KPCA、LDA、KLDA四算法进行数据预处理,使用SVM、逻辑回归、ANN三方法对预处理与未预处理的数据进行了分类与评估,使用FCM方法对预处理与未预处理的数据进行了聚类与评估,完整地完成了项目的全部要求。实验过程中,对自己实现的预处理算法与sklearn的提供官方算法进行了对比;对比了预处理与否对分类与聚类精度的影响;对所有的算法实现了可视化;基于pytorch框架使用自行搭建的MLP(多层感知机)神经网络对数据进行分类处理并总结效果。经过本次项目的实践,我对机器学习常用算法的理解与编程能力有了进一步提升,了解了预处理的重要性,也进行了不同机器学习算法应用在同一个问题上的对比,并认识到了各算法优劣,在日后解决科研难题的过程中,应当具体问题具体分析,选择最适合解决问题的那算法。 环境配置 - 项目环境基于python3.6构建,为确保不报错,请使用python>=3.6的版本 - 建议使用conda命令进行python环境构建与依赖包的安装 ```buildoutcfg conda create -n ml_test python=3.6 activate ml_test ``` - 所需要的基本依赖包安装命令如下 ```buildoutcfg conda install numpy conda install scikit-learn conda install matplotlib ``` - 为运行KLDA,需要使用pip安装mlxtend扩充包 ```buildoutcfg pip install mlxtend ``` - 为运行神经网络,需要安装pytorch,使用cpu版本即可 ```buildoutcfg conda install pytorch ``` 代码说明 - `1_1_pca_analysis.py` 自己实现的PCA预处理与sklearn实现的PCA预处理效果对比 - `1_2_kpca_analysis.py` 自己实现的KPCA预处理与sklearn实现的KPCA预处理效果对比 - `1_3_lda_analysis.py` 自己实现的LDA预处理与sklearn实现的LDA预处理效果对比 - `1_4_klda_analysis.py` sklearn未实现KLDA,这里只有自己实现的KLDA - `2_1_1_svm_raw.py` 使用SVM对原始数据直接进行分类,包括不同kernel的选取对比 - `2_1_2_svm_pca.py` 使用SVM对PCA预处理后的数据进行分类,包括不同kernel的选取对比 - `2_1_3_svm_lda.py` 使用SVM对LDA预处理后的数据进行分类,包括不同kernel的选取对比 - `2_2_1_svm_raw.py` 使用逻辑回归对原始数据直接进行分类 - `2_2_2_svm_pca.py` 使用逻辑回归对PCA预处理后的数据进行分类 - `2_2_3_svm_lda.py` 使用逻辑回归对LDA预处理后的数据进行分类 - `2_3_ann.py` 使用MLP(多层感知机)对小麦品分类 - `3_fcm_analysis.py` 使用FCM对小麦进行聚类并评估 - `dataset.py` 读取小麦数据集的工具包

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值