机器学习(三):数据与图像的K-means聚类

机器学习(三):数据聚类I

任务如下:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

一、需要了解或掌握的内容。

①make_circles、与make_moons介绍见本系列第一篇机器学习(一):低纬数据可视化,make_blobs用法与前两者大同小异,这里就不多做介绍,感兴趣的可以自行了解。
K-Means核心原理:K-means聚类算法首先是随机选取K个对象作为初始的聚类中心,然后计算每个样本与各个聚类中心之间的距离,把每个样本分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一次样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)样本被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。
K-Means算法详解:
输入:数据样本{x_i}_i=1^n,聚类个数K.
输出:所有样本的聚类标签{y_i}_i=1^n.
步骤:
(1)随机生成K个聚类中心,u1, …, uK;
(2)重复3和4步直至收敛:
(3)计算每个样本与每一个聚类中心的距离(如欧式距离),离哪个
聚类中心近,就划分到那个聚类所属的集合;
(4)重新计算每个集合的聚类中心;
(5)返回所有样本的聚类标签。
K-Means三个评价指标:
(1)聚类精度 (clustering accuracy):
ACC用于测量实际标签和通过算法获得的预测标签之间的精度。假设一数据集 在这里插入图片描述
, 实际标签为g_i, 预测标签为p_i, 则ACC计算公式定义如下:
在这里插入图片描述
上式中,如果a=b, 则函数δ(a,b)=1, 否则,函数δ(a,b)=0。 map(•)是将获得的聚类标签与数据集的等效标签匹配的最佳排列映射函数。

(2)标准化互信息( Normalized mutual information ):
给定两个随机变量P和Q, 则NMI计算公式定义如下:
在这里插入图片描述
上式中,I(P;Q)代表P和Q的互信息,H§和H(Q)分别代表P与Q的熵值。

(3)调整的兰德系数( Adjusted rand index ):
在这里插入图片描述
在这里插入图片描述
熟悉上述内容后,就可以开始做题了。

二、通过Sklearn中的make_circles、make_moons、make_blobs方法生成数据,并用K-Means聚类并可视化。

原理介绍过了,这里就直接上代码

from sklearn.datasets import make_circles
from sklearn.datasets import make_moons
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
from sklearn.metrics import accuracy_score
from sklearn.metrics import normalized_mutual_info_score
from sklearn.metrics import adjusted_rand_score
import matplotlib.pyplot as plt
import numpy as np

def Kmeans(x1,n):
    kmeans = KMeans(n_clusters=n) #n个聚类中心
    kmeans.fit(x1)
    y_kmeans = kmeans.predict(x1)
    centers = kmeans.cluster_centers_    #聚类中心
    return y_kmeans,centers

fig = plt.figure()

#make_circles聚类
#聚类前
x1, y1 = make_circles(n_samples=400, factor=0.2, noise=0.1)  
plt.title('make_circles')
plt.scatter(x1[:,0],x1[:,1],marker='*',c=y1,cmap='Spectral')  
plt.show()
#聚类后,下同
y_kmeans,centers = Kmeans(x1,2)
plt.scatter(x1[:,0],x1[:,1],marker='*',c=y_kmeans,cmap='Spectral')
plt.scatter(centers[:,0], centers[:,1],marker='*',c='black'<
  • 2
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
目前,基于k-means聚类算法的图像区域分割技术已经成为许多计算机视觉领域的行业标准。该技术能够将图像按照色彩相似性进行分割,将图像分成多个具有相似特征的区域,从而方便后续的图像处理和分析。 基于k-means聚类算法的图像区域分割技术的行业标准主要体现在以下几个方面: 首先,这一技术的优点是计算时间短且效果良好。k-means聚类算法是一种简单而高效的算法,能够在短时间内对图像进行分割,并且能够得到较为精确的分割结果。 其次,该技术已经在多个领域得到广泛应用。基于k-means聚类算法的图像区域分割技术已经应用于图像处理、计算机视觉、机器学习等领域,在图像分类、人脸识别、目标检测等任务中都表现出了较好的性能。 此外,基于k-means聚类算法的图像区域分割技术也已经取得了一些重要的技术突破。近年来,研究人员基于k-means算法提出了一系列改进方法,如谱聚类、DBSCAN等,通过引入更多的聚类约束和优化策略,进一步提升了算法的性能和稳定性。 最后,由于该技术的成熟和广泛应用,相应的工具和库也得到了大量的开发和完善,使得该技术更加便捷和易用,降低了应用门槛,推动了图像区域分割技术的发展。 综上所述,基于k-means聚类算法的图像区域分割技术已经成为行业标准,并在多个领域得到了广泛应用。随着相关算法的不断改进和工具的完善,相信该技术在未来会有更加广阔的发展前景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值