机器学习（三）：数据与图像的K-means聚类

最新推荐文章于 2023-03-25 18:19:37 发布

the_north

最新推荐文章于 2023-03-25 18:19:37 发布

阅读量1.8k

点赞数 2

分类专栏：机器学习 K-means聚类文章标签：机器学习 sklearn 深度学习

本文链接：https://blog.csdn.net/the_north/article/details/120295690

版权

本文介绍了K-Means聚类算法的核心原理，通过Sklearn库生成数据集并应用K-Means进行聚类，同时展示了如何对图像像素进行聚类并可视化。内容涵盖K-Means的初始化、迭代过程、评估指标以及在make_circles、make_moons和make_blobs数据集上的应用实例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

机器学习（三）：数据聚类I

任务如下：
在这里插入图片描述

一、需要了解或掌握的内容。

①make_circles、与make_moons介绍见本系列第一篇机器学习（一）：低纬数据可视化，make_blobs用法与前两者大同小异，这里就不多做介绍，感兴趣的可以自行了解。
②K-Means核心原理:K-means聚类算法首先是随机选取K个对象作为初始的聚类中心，然后计算每个样本与各个聚类中心之间的距离，把每个样本分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一次样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有（或最小数目）样本被重新分配给不同的聚类，没有（或最小数目）聚类中心再发生变化，误差平方和局部最小。
③K-Means算法详解：
输入：数据样本{x_i}_i=1^n，聚类个数K.
输出：所有样本的聚类标签{y_i}_i=1^n.
步骤：
（1）随机生成K个聚类中心，u1, …, uK；
（2）重复3和4步直至收敛：
（3）计算每个样本与每一个聚类中心的距离（如欧式距离），离哪个
聚类中心近，就划分到那个聚类所属的集合；
（4）重新计算每个集合的聚类中心；
（5）返回所有样本的聚类标签。
④K-Means三个评价指标：
（1）聚类精度 (clustering accuracy)：
ACC用于测量实际标签和通过算法获得的预测标签之间的精度。假设一数据集在这里插入图片描述
, 实际标签为g_i, 预测标签为p_i, 则ACC计算公式定义如下：

上式中，如果a=b, 则函数δ(a,b)=1, 否则，函数δ(a,b)=0。 map(•)是将获得的聚类标签与数据集的等效标签匹配的最佳排列映射函数。

（2）标准化互信息（ Normalized mutual information ）：
给定两个随机变量P和Q, 则NMI计算公式定义如下：
在这里插入图片描述
上式中，I(P;Q)代表P和Q的互信息，H§和H(Q)分别代表P与Q的熵值。

(3)调整的兰德系数（ Adjusted rand index ）：
在这里插入图片描述

熟悉上述内容后，就可以开始做题了。

二、通过Sklearn中的make_circles、make_moons、make_blobs方法生成数据，并用K-Means聚类并可视化。

原理介绍过了，这里就直接上代码

from sklearn.datasets import make_circles
from sklearn.datasets import make_moons
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
from sklearn.metrics import accuracy_score
from sklearn.metrics import normalized_mutual_info_score
from sklearn.metrics import adjusted_rand_score
import matplotlib.pyplot as plt
import numpy as np

def Kmeans(x1,n):
    kmeans = KMeans(n_clusters=n) #n个聚类中心
    kmeans.fit(x1)
    y_kmeans = kmeans.predict(x1)
    centers = kmeans.cluster_centers_    #聚类中心
    return y_kmeans,centers

fig = plt.figure()

#make_circles聚类
#聚类前
x1, y1 = make_circles(n_samples=400, factor=0.2, noise=0.1)  
plt.title('make_circles')
plt.scatter(x1[:,0],x1[:,1],marker='*',c=y1,cmap='Spectral')  
plt.show()
#聚类后，下同
y_kmeans,centers = Kmeans(x1,2)
plt.scatter(x1[:,0],x1[:,1],marker='*',c=y_kmeans,cmap='Spectral')
plt.scatter(centers[:,0], centers[:,1],marker='*',c='black',s=80)
plt.show()

acc=

最低0.47元/天解锁文章