机器学习:对鸢尾花数据进行PCA降维后使用k-means聚类

本文介绍了如何使用Python中的Matplotlib、Numpy和Scikit-learn库对Iris数据集进行可视化,并通过KMeans算法进行聚类,然后应用PCA进行降维,展示了聚类效果在原始数据和降维后的变化。
摘要由CSDN通过智能技术生成

先附上代码

import matplotlib.pyplot as plt
import numpy as np
from sklearn.cluster import KMeans
from sklearn.datasets import load_iris
from sklearn.decomposition import PCA

#获取数据
iris = load_iris()
X = iris.data

# 数据可视化
# 散点图,plt.scatter(x(横轴数据),y(纵轴数据),c="颜色"
marker="点的形状"
labal="点的标签"
plt.scatter(X[:, 0], X[:, 1], c="black", marker='o', 
label='see')
##设置 x,y 轴的名字
plt.xlabel('petal length')
plt.ylabel('petal width')
##设置图的名字
plt.title("Data")
##显示图像
plt.show()

#这里我们分成了3类
kmeans=KMeans(n_clusters=3)
kmeans.fit(X)
y_kmeans=kmeans.predict(X)

#可视化聚类后的结果
x0 = X[y_kmeans == 0]
x1 = X[y_kmeans == 1]
x2 = X[y_kmeans == 2]
plt.scatter(x0[:, 0], x0[:, 1], c="red", marker='o', 
label='label0')
plt.scatter(x1[:, 0], x1[:, 1], c="green", marker='o', 
label='label1')
plt.scatter(x2[:, 0], x2[:, 1], c="blue", marker='o', 
label='label2')
plt.title("clustr before PCA")
plt.xlabel('petal length')
plt.ylabel('petal width')
plt.legend(loc=2)
plt.show()

y = iris.target
target_names = iris.target_names

#这里我们使用PCA降为2维
pca=PCA(n_components=2)
X_r=pca.fit_transform(X)
var=pca.explained_variance_ratio_
_cumvar=np.cumsum(var)#记得导入numpy
print("降维后方差分布为:{}".format(_cumvar))

plt.figure()
colors = ["navy", "turquoise", "darkorange"] # 绘图颜色
# 分别绘制降维后的 3 类 iris
for color, i, target_name in zip(colors, [0, 1, 2], 
target_names):
 plt.scatter(
 X_r[y == i, 0], X_r[y == i, 1], color=color, 
alpha=0.8, lw=2, label=target_name
 )
plt.title("PCA of IRIS dataset")
plt.show()

#使用降维后的数据进行聚类
pca_kmeans=KMeans(n_clusters=3)
pca_kmeans.fit(X_r)
y_pca_kmeans=pca_kmeans.predict(X_r)
x0_pca = X_r[y_pca_kmeans == 0]
x1_pca = X_r[y_pca_kmeans == 1]
x2_pca = X_r[y_pca_kmeans == 2]
plt.figure()
plt.scatter(x0_pca[:, 0], x0_pca[:, 1], c="red", marker='o', 
label='label0')
plt.scatter(x1_pca[:, 0], x1_pca[:, 1], c="green", marker='o', 
label='label1')
plt.scatter(x2_pca[:, 0], x2_pca[:, 1], c="blue", marker='o', 
label='label2')
plt.title("clustr after PCA")
plt.legend(loc=2)
plt.show()

初始数据如图

PCA处理前的数据

PCA处理后的数据

聚类效果如图

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
众所周知,人工智能是当前最热门的话题之一, 计算机技术与互联网技术的快速发展更是将对人工智能的研究推向一个新的高潮。 人工智能是研究模拟和扩展人类智能的理论与方法及其应用的一门新兴技术科学。 作为人工智能核心研究领域之一的机器学习, 其研究动机是为了使计算机系统具有人的学习能力以实现人工智能。 那么, 什么是机器学习呢? 机器学习 (Machine Learning) 是对研究问题进行模型假设,利用计算机从训练数据中学习得到模型参数,并最终对数据进行预测和分析的一门学科。 机器学习的用途 机器学习是一种通用的数据处理技术,其包含了大量的学习算法。不同的学习算法在不同的行业及应用中能够表现出不同的性能和优势。目前,机器学习已成功地应用于下列领域: 互联网领域----语音识别、搜索引擎、语言翻译、垃圾邮件过滤、自然语言处理等 生物领域----基因序列分析、DNA 序列预测、蛋白质结构预测等 自动化领域----人脸识别、无人驾驶技术、图像处理、信号处理等 金融领域----证券市场分析、信用卡欺诈检测等 医学领域----疾病鉴别/诊断、流行病爆发预测等 刑侦领域----潜在犯罪识别与预测、模拟人工智能侦探等 新闻领域----新闻推荐系统等 游戏领域----游戏战略规划等 从上述所列举的应用可知,机器学习正在成为各行各业都会经常使用到的分析工具,尤其是在各领域数据量爆炸的今天,各行业都希望通过数据处理与分析手段,得到数据中有价值的信息,以便明确客户的需求和指引企业的发展。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值