用K-Means算法处理wine数据集和wine_quality数据集

一、实验目的

根据wine数据集处理的结果,采用2种不同的聚类算法分别建聚类模型;然后,通过定量指标评价所构建的模型的优劣。

二、实验内容  

wine数据集和wine_quality数据集是两份和葡萄酒有关的数据集。

wine数据集包含3种同起源的葡萄酒的记录,共178条。其中,每个特征对应葡萄酒的每种化学成分,并且都属于连续型数据。通过化学分析可以推断葡萄酒的起源。

wine_quality数据集共有1599个观察值,11个输入特征和一个标签。其中,不同类的观察值数量不等,所有特征为连续型数据。通过酒的各类化学成分,预测该葡萄酒的评分。

(1) 使用pandas库分别读取wine数据集和wine_quality数据集;将wine数据集和wine_quality数据集的数据和标签拆分开;将wine数据集和wine_quality数据集划分为训练集和测试集;标准化wine数据集和wine_quality数据集;对wine数据集和wine_quality数据集进行PCA降维。

(2) 根据(1)的wine数据集处理的结果,采用2种不同的聚类算法分别构建聚类模型;然后,通过定量指标评价所构建的模型的优劣。

(3) 根据(1)的wine数据集处理的结果,采用2种不同的分类算法分别构建分类模型;然后,通过定量指标评价所构建的模型的优劣。

(4) 根据(1)的wine_quality数据集处理的结果,采用2种不同的回归算法分别构建回归模型;然后,通过定量指标评价所构建的模型的优劣。

三、实验步骤 (包含算法简介)

K-means

  • K-Means算法的简介

KMeans算法既是一种无监督的学习方式,又是一种聚类方法。

它的主要实现步骤如下:

首先对数据集当中的点,随机设置K个特征空间内的点作为初始的聚类中心点。然后对于其它的每个点,分别计算到它们到K个中心的距离(即:每个点都要经过k次计算),每个点经过<

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值