C均值算法实例(C—means)[K均值算法]

1、介绍

       C均值算法又称K均值算法,是一种无监督学习方法,用于将数据集分成K个不同的簇,每个簇内的数据点相似度较高。其原理如下:

        首先,从数据集中随机选择K个点作为初始质心,这些质心代表了簇的中心点。

        然后,将每个数据点分配到最近的质心所代表的簇,通常使用欧氏距离来计算距离。

        接下来,重新计算每个簇的质心,将簇中所有数据点的均值作为新的质心。

        重复上述两个步骤,直到质心不再发生显著变化或达到预定的迭代次数为止。

        最终,K均值算法将数据集分成K个簇,每个簇内的数据点相似度较高,而不同簇之间的数据点相似度较低。

       该算法的目标是最小化每个簇内数据点与其质心之间的距离之和,这被称为簇内平方和(Inertia)。K均值算法在聚类、图像分割和异常检测等领域广泛应用,是一种简单但有效的聚类方法。

2、数据集

采用sk库自带的鸢尾花数据集

3、代码

import numpy as np
from sklearn import datasets
from sklearn.cluster import KMeans
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt

# 获取鸢尾花的数据
iris = datasets.load_iris()
iris_X = iris.data
iris_Y = iris.target

# 实现c均值算法,c=3
c = 3
kmeans = KMeans(n_clusters=c, random_state=0)
kmeans.fit(iris_X)
cluster_labels = kmeans.labels_
cluster_centers = kmeans.cluster_centers_

# 调整聚类标签以匹配实际类别
adjusted_cluster_labels = np.zeros_like(cluster_labels)
for i in range(c):
    mask = (cluster_labels == i)
    most_common_label = np.bincount(iris_Y[mask]).argmax()
    adjusted_cluster_labels[mask] = most_common_label

# 计算准确率
accuracy = accuracy_score(iris_Y, adjusted_cluster_labels)

# 打印输出结果
print("实际分类:")
print(iris_Y)
print("聚类结果:")
print(adjusted_cluster_labels)
print("聚类中心:")
print(cluster_centers)
print(f"准确率:{accuracy:.2f}")

# 可视化聚类结果
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
plt.scatter(iris_X[:, 0], iris_X[:, 1], c=iris_Y, cmap='viridis')
plt.title('Actual classification')

plt.subplot(1, 2, 2)
plt.scatter(iris_X[:, 0], iris_X[:, 1], c=adjusted_cluster_labels, cmap='viridis')
plt.scatter(cluster_centers[:, 0], cluster_centers[:, 1], marker='x', s=200, c='red')
plt.title('Cluster results')
plt.show()

iris_Y包含了鸢尾花数据集中每个样本的目标分类或标签。这个数组的长度与数据集中的样本数量相同,每个元素对应一个样本的分类。在鸢尾花数据集中,有三种不同的鸢尾花品种(Setosa、Versicolor 和 Virginica),分别用数字 0、1 和 2 来表示。所以 iris_Y 是一个包含样本标签的一维数组。

 iris_X包含了鸢尾花数据集中的特征数据。每一行代表一个鸢尾花样本,每一列代表一个特征。通常,这个矩阵的维度是 (样本数, 特征数),在鸢尾花数据集中,有四个特征:花萼长度、花萼宽度、花瓣长度和花瓣宽度。所以 iris_X 是一个包含样本特征值的二维数组。

n_clusters: 即我们的k值,和KMeans类的n_clusters意义一样。

 random_state:相当于随机种子。在开始运行时,k 均值聚类需要从众多数据中随机挑选 k 个点作为簇中心,random_state 就是为挑选 k 个簇中心而准备的随机种子

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值