实训 wine数据集_基于wine的K-Means聚类模型研究

最新推荐文章于 2024-05-12 05:38:25 发布

weixin_39595310

最新推荐文章于 2024-05-12 05:38:25 发布

阅读量4.5k

点赞数 5

文章标签：实训 wine数据集

本文链接：https://blog.csdn.net/weixin_39595310/article/details/113369204

版权

摘要：

本文通过使用wine数据集来构建K-Means聚类模型，先对wine数据集的原始样本进行数据预处理，得到预处理后的数据作为我们的新数据样本，通过sklearn的估计器接收进行学习的数据用于训练算法，构建聚类模型；完成模型构建对模型进行评价分析，本文具体对FMI评价法、轮廓系数评价法、Calinski-Harabasz指数评价法三种评价方法进行具体的介绍和操作。通过metrics模块提供的聚类模型评价指标，我们可以对比真实target和聚类tatget求取FMI评分，同时对于范围内的类别数目我们也可以通过评价指标得到模型的最优解，确定聚类的最优数目；求取范围内的类别数目我们求取轮廓系数，绘制对应系数的折线图，确定最优聚类数目；第三种对范围内的类别数目求取Calinski-Harabasz指数，确定最优的聚类数目。三种评估方法对实际模型评估方式皆有不同，结合三种评价方法与模型的实际情况我们进行对比可以发现FMI评价方法对于此模型的评估参考价值最高。

前言：

skleran数据分析的基本任务主要体现在分类、聚类、回归三类上，而不同的类又有许多种评估方法，用以对我们所构建的模型进行评价，得到最优模型。

目标：

对winedataset构建K-Means聚类模型：

具体步骤：

1、首先通过pandas文件读取方法读取wine数据集的数据，代码如下：

2、通过观察数据的字段我们可以将wine数据区分成两个部分，即数据部分和target部分，代码如下：

3、得到wine数据的两个部分以后我们开始对数据进行分割成训练集train和测试集test，代码如下:

其中我们的train_test_split()方法参数分别是wine的数据部分和wine的target部分，两个参数分别分割成对应的训练集和测试集，所以return的有四个参数，我们分别以wineDataTrain、wineDataTest、wineTargetTrain、wineTargetTest代表wine数据训练集、wine数据测试集、wineTarget训练集、wineTarget测试集，test_size=0.1意义是将训练集和测试集以1&#

最低0.47元/天解锁文章

weixin_39595310

关注

5
点赞
踩
35

收藏

觉得还不错? 一键收藏
0
评论
实训 wine数据集_基于wine的K-Means聚类模型研究

摘要：本文通过使用wine数据集来构建K-Means聚类模型，先对wine数据集的原始样本进行数据预处理，得到预处理后的数据作为我们的新数据样本，通过sklearn的估计器接收进行学习的数据用于训练算法，构建聚类模型；完成模型构建对模型进行评价分析，本文具体对FMI评价法、轮廓系数评价法、Calinski-Harabasz指数评价法三种评价方法进行具体的介绍和操作。通过metrics模块提供的聚类...
复制链接

扫一扫