K-Means聚类算法思想及实现

K-Means聚类概念:

K-Means聚类是最常用的聚类算法,最初起源于信号处理,其目标是将数据点划分为K个类簇, 找到每个簇的中心并使其度量最小化。 该算法的最大优点是简单、便于理解,运算速度较快,缺点是只能应用于连续型数据,并且要 在聚类前指定聚集的类簇数。 k-means算法是一种原型聚类算法。

K-Means聚类分析流程:

第一步,确定K值,即将数据集聚集成K个类簇或小组。
第二步,从数据集中随机选择K个数据点作为质心(Centroid)或数据中心。
第三步,分别计算每个点到每个质心之间的距离,并将每个点划分到离最近质心的小组。
第四步,当每个质心都聚集了一些点后,重新定义算法选出新的质心。(对于每个簇,计 算其均值,即得到新的k个质心点)
第五步,迭代执行第三步到第四步,直到迭代终止条件满足为止(分类结果不再变化)
举个例子:
起始情况:
在这里插入图片描述
在这里插入图片描述
第一步,确定K值,即将数据集聚集成K个类簇或小组。 ----这里我们选K=2
第二步,从数据集中随机选择K个数据点作为质心(Centroid)或数 据中心。----假设我们选择P1和P2作为初始的质心
第三步,分别计算每个点到每个质心之间的距离,并将每个点划分 到离最近质心的小组。 ----计算P3到P1的距离:√10 = 3.16; ----计算P3到P2的距离:√((3-1)2+(1-2)2 = √5 = 2.24; ----所以P3离P2更近,P3就加入P2的簇。同理,P4、P5、P6;
在这里插入图片描述
P3到P6都跟P2更近,所以第一次分组的结果是:
• 组A:P1
• 组B:P2、P3、P4、P5、P6
在这里插入图片描述
按照上一次的方法选出两个新的虚拟质心: —P哥1(1.33,1), P哥2(9,8.33)。
第三次计算点到质心的距离:
— 这时可以看到P1、P2、P3离P哥1更近,P4、 P5、P6离P哥2更近。
所以第三次分组的结果是:
• 组A:P1、P2、P3
• 组B:P4、P5、P6
我们发现,这次分组的结果和上次没有任何变化了,说 明已经收敛,聚类结束。

K-Means聚类应用:

在图像处理中,通过K-Means聚类算法可以实现图像分割、图像聚类、图像识别等操作。 我们通过K-Means可以将这些像素点聚类成K个簇,然后使用每个簇内的质心点来替换簇内所有 的像素点,这样就能实现在不改变分辨率的情况下量化压缩图像颜色,实现图像颜色层级分割。

K-Means聚类优缺点:

优点:
1.是解决聚类问题的一种经典算法,简单、快速
2.对处理大数据集,该算法保持可伸缩性和高效率
3.当结果簇是密集的,它的效果较好
缺点:
1.在簇的平均值可被定义的情况下才能使用,可能不适用于某些应用
2.必须事先给出k(要生成的簇的数目),而且对初值敏感,对于不同的初始值,可能会导致不同结果。
3.不适合于发现非凸形状的簇或者大小差别很大的簇
4.对躁声和孤立点数据敏感

算法实现

简单的灰色图像聚类:

'''
在OpenCV中,Kmeans()函数原型如下所示:
compactness, Labels, centers = kmeans(data, K, bestLabels, criteria, attempts, flags[, centers])
    返回值:
    compactness:紧密度,返回每个点到相应重心的距离的平方和
	labels:结果标记,每个成员被标记为分组的序号,如 0,1,2,3,4...等
	centers:由聚类的中心组成的数组
	输入值:
    data表示聚类数据,最好是np.flloat32类型的N维点集
    K表示聚类类簇数
    bestLabels表示输出的整数数组,用于存储每个样本的聚类标签索引
    criteria表示算法终止条件,即最大迭代次数或所需精度。在某些迭代中,一旦每个簇中心的移动小于criteria.epsilon,算法就会停止
    attempts表示重复试验kmeans算法的次数,算法返回产生最佳紧凑性的标签
    flags表示初始中心的选择,两种方法是cv2.KMEANS_PP_CENTERS ;和cv2.KMEANS_RANDOM_CENTERS
    centers表示集群中心的输出矩阵,每个集群中心为一行数据
'''

import cv2
import numpy as np
import matplotlib.pyplot as plt

#读取原始图像灰度颜色
img = cv2.imread('lenna.png', 0) 
print (img.shape)

#获取图像高度、宽度
rows, cols = img.shape[:]

#图像二维像素转换为一维
data = img.reshape((rows * cols, 1))
data = np.float32(data)

#定义终止条件 (type,max_iter,epsilon)
criteria = (cv2.TERM_CRITERIA_EPS +
            cv2.TERM_CRITERIA_MAX_ITER, 10, 1.0)

#每次随机选择初始中心
flags = cv2.KMEANS_RANDOM_CENTERS

#K-Means聚类 聚集成4类
compactness, labels, centers = cv2.kmeans(data, 4, None, criteria, 10, flags)

#生成最终图像
dst = labels.reshape((img.shape[0], img.shape[1]))

#用来正常显示中文标签
plt.rcParams['font.sans-serif']=['SimHei']

#显示图像
titles = [u'原始图像', u'聚类图像']  
images = [img, dst]  
for i in range(2):  
   plt.subplot(1,2,i+1), plt.imshow(images[i], 'gray'), 
   plt.title(titles[i])  
   plt.xticks([]),plt.yticks([])  
plt.show()

结果展示:
在这里插入图片描述
彩色图像不同类数的聚类效果对比:

import cv2
import numpy as np
import matplotlib.pyplot as plt

#读取原始图像
img = cv2.imread('lenna.png') 
print (img.shape)

#图像二维像素转换为一维
data = img.reshape((-1,3))
#先前我们不知道z的shape属性是多少,但是想让z变成只有三列
data = np.float32(data)
#转换为float32位

#定义终止条件(type,max_iter,epsilon)
criteria = (cv2.TERM_CRITERIA_EPS +
            cv2.TERM_CRITERIA_MAX_ITER, 10, 1.0)

#随机选定初始中心
flags = cv2.KMEANS_RANDOM_CENTERS

#K-Means聚类 聚集成2类
compactness, labels2, centers2 = cv2.kmeans(data, 2, None, criteria, 10, flags)

#K-Means聚类 聚集成4类
compactness, labels4, centers4 = cv2.kmeans(data, 4, None, criteria, 10, flags)

#K-Means聚类 聚集成8类
compactness, labels8, centers8 = cv2.kmeans(data, 8, None, criteria, 10, flags)

#K-Means聚类 聚集成16类
compactness, labels16, centers16 = cv2.kmeans(data, 16, None, criteria, 10, flags)

#K-Means聚类 聚集成64类
compactness, labels64, centers64 = cv2.kmeans(data, 64, None, criteria, 10, flags)

#图像转换回uint8二维类型
centers2 = np.uint8(centers2)
res = centers2[labels2.flatten()]
dst2 = res.reshape((img.shape))

centers4 = np.uint8(centers4)
res = centers4[labels4.flatten()]
dst4 = res.reshape((img.shape))

centers8 = np.uint8(centers8)
res = centers8[labels8.flatten()]
dst8 = res.reshape((img.shape))

centers16 = np.uint8(centers16)
res = centers16[labels16.flatten()]
dst16 = res.reshape((img.shape))

centers64 = np.uint8(centers64)
res = centers64[labels64.flatten()]
dst64 = res.reshape((img.shape))

#图像转换为RGB显示
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
dst2 = cv2.cvtColor(dst2, cv2.COLOR_BGR2RGB)
dst4 = cv2.cvtColor(dst4, cv2.COLOR_BGR2RGB)
dst8 = cv2.cvtColor(dst8, cv2.COLOR_BGR2RGB)
dst16 = cv2.cvtColor(dst16, cv2.COLOR_BGR2RGB)
dst64 = cv2.cvtColor(dst64, cv2.COLOR_BGR2RGB)

#用来正常显示中文标签
plt.rcParams['font.sans-serif']=['SimHei']

#显示图像
titles = [u'原始图像', u'聚类图像 K=2', u'聚类图像 K=4',
          u'聚类图像 K=8', u'聚类图像 K=16',  u'聚类图像 K=64']  
images = [img, dst2, dst4, dst8, dst16, dst64]  
for i in range(6):  
   plt.subplot(2,3,i+1), plt.imshow(images[i], 'gray'), 
   plt.title(titles[i])  
   plt.xticks([]),plt.yticks([])  
   #xticks()函数可以用来设置使x轴上ticks隐藏,即将空数组赋予它,则没有tick会显示在x轴上
plt.show()

输出结果:
在这里插入图片描述

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值