实训 wine数据集_基于wine的K-Means聚类模型研究

c1759098a356d222a3d0ee363719842c.png

摘要:

本文通过使用wine数据集来构建K-Means聚类模型,先对wine数据集的原始样本进行数据预处理,得到预处理后的数据作为我们的新数据样本,通过sklearn的估计器接收进行学习的数据用于训练算法,构建聚类模型;完成模型构建对模型进行评价分析,本文具体对FMI评价法、轮廓系数评价法、Calinski-Harabasz指数评价法三种评价方法进行具体的介绍和操作。通过metrics模块提供的聚类模型评价指标,我们可以对比真实target和聚类tatget求取FMI评分,同时对于范围内的类别数目我们也可以通过评价指标得到模型的最优解,确定聚类的最优数目;求取范围内的类别数目我们求取轮廓系数,绘制对应系数的折线图,确定最优聚类数目;第三种对范围内的类别数目求取Calinski-Harabasz指数,确定最优的聚类数目。三种评估方法对实际模型评估方式皆有不同,结合三种评价方法与模型的实际情况我们进行对比可以发现FMI评价方法对于此模型的评估参考价值最高。

前言:

skleran数据分析的基本任务主要体现在分类、聚类、回归三类上,而不同的类又有许多种评估方法,用以对我们所构建的模型进行评价,得到最优模型。

目标:

对winedataset构建K-Means聚类模型:

具体步骤:

1、首先通过pandas文件读取方法读取wine数据集的数据,代码如下:

77e8f0520cd305e63e1279d19c82973b.png

2、通过观察数据的字段我们可以将wine数据区分成两个部分,即数据部分和target部分,代码如下:

f8d99f76e59eaf1501b467758c92c861.png

3、得到wine数据的两个部分以后我们开始对数据进行分割成训练集train和测试集test,代码如下:

70faab74adf2e5800d7e3f11d0e53e4a.png

其中我们的train_test_split()方法参数分别是wine的数据部分和wine的target部分,两个参数分别分割成对应的训练集和测试集,所以return的有四个参数,我们分别以wineDataTrain、wineDataTest、wineTargetTrain、wineTargetTest代表wine数据训练集、wine数据测试集、wineTarget训练集、wineTarget测试集,test_size=0.1意义是将训练集和测试集以1&#

  • 5
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值