一、k-means

最新推荐文章于 2024-06-18 17:32:26 发布

O__o吗果芒要

最新推荐文章于 2024-06-18 17:32:26 发布

阅读量374

点赞数

分类专栏：机器学习算法文章标签：机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012606924/article/details/78141743

版权

机器学习算法专栏收录该内容

14 篇文章 0 订阅

订阅专栏

解K-means的大概思路，没有深究过其中的两个重要问题：一是初始点的选择；二是K值的选择。

合理的确定K值和K个初始类簇中心点对于聚类效果的好坏有很大的影响

算法原理：

(1) 随机选取k个中心点；

(2) 在第j次迭代中，对于每个样本点，选取最近的中心点，归为该类；

(3) 更新中心点为每类的均值；

(4) j<-j+1 ,重复(2)(3)迭代更新，直至误差小到某个值或者到达一定的迭代步数，误差不变.

空间复杂度o(N)

时间复杂度o(I*K*N)

其中N为样本点个数，K为中心点个数，I为迭代次数

轮廓系数：

轮廓系数（Silhouette Coefficient）结合了聚类的凝聚度（Cohesion）和分离度（Separation），用于评估聚类的效果。该值处于-1~1之间，值越大，表示聚类效果越好。具体计算方法如下：

1. 对于每个样本点i，计算点i与其同一个簇内的所有其他元素距离的平均值，记作a(i)，用于量化簇内的凝聚度。

2. 选取i外的一个簇b，计算i与b中所有点的平均距离，遍历所有其他簇，找到最近的这个平均距离,记作b(i)，即为i的邻居类，用于量化簇之间分离度。

3. 对于样本点i，轮廓系数s(i) = (b(i) – a(i))/max{a(i),b(i)}

4. 计算所有i的轮廓系数，求出平均值即为当前聚类的整体轮廓系数，度量数据聚类的紧密程度

从上面的公式，不难发现若s(i)小于0，说明i与其簇内元素的平均距离小于最近的其他簇，表示聚类效果不好。如果a(i)趋于0，或者b(i)足够大，即a(i)<<b(i)，那么s(i)趋近与1，说明聚类效果比较好。

K值确定

法1：(轮廓系数)在实际应用中，由于Kmean一般作为数据预处理，或者用于辅助分聚类贴标签。所以k一般不会设置很大。可以通过枚举，令k从2到一个固定值如10，在每个k值上重复运行数次kmeans(避免局部最优解)，并计算当前k的平均轮廓系数，最后选取轮廓系数最大的值对应的k作为最终的集群数目。

O__o吗果芒要

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
一、k-means

解K-means的大概思路，没有深究过其中的两个重要问题：一是初始点的选择；二是K值的选择。合理的确定K值和K个初始类簇中心点对于聚类效果的好坏有很大的影响算法原理：(1) 随机选取k个中心点；(2) 在第j次迭代中，对于每个样本点，选取最近的中心点，归为该类；(3) 更新中心点为每类的均值；(4) j空间复杂度o(N)时间复杂度o(I*K*N)其中N为样本点个
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。