python机器学习————使用sklearn实现Iris数据集KMeans聚类

该博客介绍了如何使用Python的sklearn库对Iris数据集进行KMeans聚类。内容包括数据集介绍、库的导入、特征选择、KMeans算法应用、数值分析及聚类结果的散点图对比,展示了不同鸢尾花类别的聚类效果。
摘要由CSDN通过智能技术生成

首先我们对Iris数据集(鸢尾花数据集)进行简单介绍:

  • 它分为三个类别,即Iris setosa(山鸢尾)、Iris versicolor(变色鸢尾)和Iris virginica(弗吉尼亚鸢尾),每个类别各有50个实例。
  • 数据集定义了五个属性:sepal length(花萼长)、sepal width(花萼宽)、petal length(花瓣长)、petal width(花瓣宽)、class(类别)。
  • 最后一个属性一般作为类别属性,其余属性为数值,单位为厘米。
鸢尾花数据集在sklearn中有保存,我们可以直接使用库中的数据集,也可以在这个网站对鸢尾花进行下载。

1、首先导入相应的库和数据

from sklearn import datasets		# 存放鸢尾花数据
from sklearn.cluster import KMeans	# 机器学习模型
import matplotlib.pyplot as plt
import pandas as pd

iris = datasets.load_iris()
iris_X = iris.data				# 花朵属性
iris_y = iris.target			# 花朵类别
print(iris_X[:3])
# [[5.1 3.5 1.4 0.2]
#  [4.9 3.  1.4 0.2]
#  [4.7 3.2 1.3 0.2]
print(iris_y)
# [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
#  0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
#  1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
#  2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
#  2 2]

我们可以看到,花朵属性总共为4列,分别对应sepal length(花萼长)、sepal width(花萼宽)、petal length(花瓣长)、petal width(花瓣宽),这里我们只取了3行出来;类别我们分为了3类,分别对应了0、1、2.

2、取部分特征作散点图

plt.scatter(iris_X[:50,2],iris_X[:50,3],label='setosa',marker='o')
plt.scatter(iris_X[50:100
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值