KMeans算法实现步骤介绍及Python代码

最新推荐文章于 2024-04-27 17:30:34 发布

不断冲的Castor

最新推荐文章于 2024-04-27 17:30:34 发布

阅读量6.8k

点赞数 7

分类专栏： # Kmeans 文章标签：聚类 python kmeans算法算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/coolyuan/article/details/108045061

版权

Kmeans 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文章目录

一、KMeans算法的步骤

对于给定的一组数据，随机初始化K个聚类中心（簇中心）
计算每个数据到簇中心的距离，并把该数据归为离它最近的簇。
根据得到的簇，重新计算簇中心。
对 2、3 进行迭代直至簇中心不再改变或者小于指定阈值。

二、KMeans实现过程中需要注意的地方

1.初始聚类中心的确定

在上面的步骤中，簇中心的选取尤为重要，它对最终的聚类影响较大。初始化簇中心常用的选取方法是从数据集中随机选取K个数据作为簇中心。
但是这种随机初始化簇中心导致了KMeans的缺点：聚类的结果不够稳定。
可以使用KMeans++来改进初始簇中心的选择。

2. 常用的距离度量

常用的距离度量可以使用欧氏距离：
点x到点y的距离
在这里插入图片描述

3. 聚类效果的衡量 SSE

在KMeans中，可以使用误差平方和（ SSE ）作为目标函数来衡量聚类效果的好坏。
下面是SSE的计算方法：

在这里插入图片描述
直观上理解，SSE越小，表示数据越接近它们的簇中心，聚类效果也就越好。

4.迭代结束条件

迭代结束的条件可以自己设置最大的迭代次数，或者让目标函数收敛（根据上面的SSE公式可以知道，目标函数收敛也就是簇中心几乎不再变化）。

5.空簇的处理

在随机初始化聚类中心的过程或迭代过程中可能会出现有的簇没有被分配到样本，这样的簇叫做空簇。在代码实现的过程中，出现空簇后再进行下一次簇中心迭代时会出现除零的问题。

下面举个例子
在这里插入图片描述

故意设置了簇中心位置来碰空簇的瓷，不然碰到空簇的概率属实有点低。。

图中左边四个菱形为初始化的4个簇中心。
根据步骤二来确定样本点所属的簇，从图上可以直观看出，绿色和红色的簇中心到样本点的距离要比蓝色和紫色的要大，因此就会导致没有样本点被分到绿色和红色的簇中。
在迭代求簇中点均值时就会报“除零”的错。
在这里插入图片描述

解决方法：可以选取离当前已知簇中心最远的点作为空簇的簇中心。因为
这样消除对当前SSE影响最大的点对SSE的影响（该点到该空簇簇中心的距离为0）
如果有多个空簇，反复进行上述过程即可。

解决空簇问题后的最终聚类结果：
在这里插入图片描述

三、结果展示

1. 样本的聚类

在这里插入图片描述

2. 图片压缩

用聚类进行图片压缩其实就是将图片的每个像素的像素值通过聚类来进行划分，然后将原有的像素的像素值用其聚类中心的像素值来代替。用这种方法来减少色彩种类并保持图片的大致轮廓，从而实现图片的压缩。

对灰度图：
在这里插入图片描述

对彩图：

你设置的簇中心数越多，像素或灰度就越丰富，也就越能接近原图，但是这反而会让图片占用空间变大，因此在图片压缩时要对K值得有一个合理的考量。

四、源码链接

五、KMeans++的实现

KMeans++相较于KMeans就在于改良了初始簇中心的选择方式，
其思想是：选择相距较远的样本点作为簇中心而非随机选取样本点
以此来加强聚类的稳定性。

算法步骤

从样本集中随机选取一个样本作为第一个簇中心
然后计算所有点到离它最近的簇中心的距离D(x)
再选择一个新的样本作为新的簇中心，选择的原则是：D(x)较大的点，被选取作为簇中心的概率较大（不直接取D（x）最大的点作为簇中心主要是为了防止噪声的干扰）
重复2、3直至K个初始簇中心被选出
执行KMeans算法的后续步骤

代码的重点实现主要是如何选取D(x)较大的样本。
一种实现方法是计算所有样本的D（x）总和（记作sum(D(x))），然后随机选取0 到 sum(D(x))之间的一个数（记作 randDis），再计算RandDis−=D(x),直至RandDis<=0,选取D(x)对应的样本点作为簇中心。

上面的方法可以这么理解：有一条按D(x)划分区域的长度为sum(D(x))的带子，现在在带子上随机打一个点，点打在D（x）较大的区域的概率也就较大。而D（x）较大的区域也就是我们要找的新的簇中心。

不断冲的Castor

关注

7
点赞
踩
34

收藏

觉得还不错? 一键收藏
3
评论
KMeans算法实现步骤介绍及Python代码

KMeans算法的步骤对于给定的一组数据，随机初始化K个聚类中心（簇中心）计算每个数据到簇中心的距离，并把该数据归为离它最近的簇。根据得到的簇，重新计算簇中心对 2、3 进行迭代直至簇中心不再改变或者小于指定阈值...
复制链接

扫一扫

专栏目录

不断冲的Castor CSDN认证博客专家 CSDN认证企业博客

码龄5年

35: 原创

2万+: 周排名

211万+: 总排名

14万+: 访问

: 等级

1585: 积分

1318: 粉丝

302: 获赞

91: 评论

963: 收藏

私信

关注

热门文章

分类专栏

最新评论

FCM的python实现代码
qq_43123584: 博主您好，请问如何能从excel里引入新数据集代替本代码中的原数据集
信息量、信息熵、信息增益的理解
turbolhr: 写的很好很清楚，谢谢！
对数据结构中共享栈减少上溢的理解
Beautiful times: 懂了
FCM的python实现代码
stronesky: 博主，你好前面的问题调试完成了，但是第二个文件代码输入之后如何开始切割图片
FCM的python实现代码
stronesky: 博主，你好我把第一个"py”文件放在jupyter中运行，最后一步的时候出现了错误，目前使用第二步的话也是在导入的时候就出现问题，我试了好多办法，我是个新手，希望博主帮我看看，错误如下（代码时复制的）：[code=python] if __name__ == '__main__': example0() #example1() #example2() #example3() 报错：AttributeError Traceback (most recent call last) Cell In[53], line 2 1 if __name__ == '__main__': ----> 2 example0() Cell In[48], line 13, in example0() 11 data.append([x,y]) 12 data=np.mat(data) ---> 13 a=FCM(data,4,20) 14 a.plot() Cell In[42], line 13, in FCM.__init__(self, data, clust_num, iter_num) 10 self.dim = data.shape[-1] # 数据最后一维度数 11 Jlist=[] # 存储目标函数计算值的矩阵 ---> 13 U = self.Initial_U(self.sample_num, self.cnum)#调用了类中的 Initial_U方法，并传入了self.sample_num 14 #和 self.cnum 作为参数 15 for i in range(0, iter_num): # 迭代次数默认为10 AttributeError: 'FCM' object has no attribute 'Initial_U' [/code]

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。