kmeans算法原理以及实践操作(多种k值确定以及如何选取初始点方法)

最新推荐文章于 2023-10-18 17:51:38 发布

VIP文章 RabinRow

最新推荐文章于 2023-10-18 17:51:38 发布

阅读量2.6k

点赞数 1

文章标签：数据结构与算法人工智能 r语言

原文链接：http://www.cnblogs.com/dudumiaomiao/p/5839905.html

版权

kmeans一般在数据分析前期使用，选取适当的k，将数据聚类后，然后研究不同聚类下数据的特点。

算法原理：

(1) 随机选取k个中心点；

(2) 在第j次迭代中，对于每个样本点，选取最近的中心点，归为该类；

(3) 更新中心点为每类的均值；

(4) j<-j+1 ,重复(2)(3)迭代更新，直至误差小到某个值或者到达一定的迭代步数，误差不变.

空间复杂度o(N)

时间复杂度o(I*K*N)

其中N为样本点个数，K为中心点个数，I为迭代次数

为什么迭代后误差逐渐减小：

SSE=

对于而言，求导后，当时，SSE最小，对应第(3)步；

对于而言，求导后，当时，SSE最小，对应第(2)步。

因此kmeans迭代能使误差逐渐减少直到不变

轮廓系数：

轮廓系数（Silhouette Coefficient）结合了聚类的凝聚度（Cohesion）和分离度（Separation），用于评估聚类的效果。该值处于-1~1之间，值越大，表示聚类效果越好。具体计算方法如下：

对于每个样本点i，计算点i与其同一个簇内的所有其他元素距离的平均值，记作a(i)，用于量化簇内的凝聚度。
选取i外的一个簇b，计算i与b中所有点的平均距离，遍历所有其他簇，找到最近的这个平均距离,记作b(i)，即为i的邻居类，用于量化簇之间分离度。

最低0.47元/天解锁文章

关注

1
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
kmeans算法原理以及实践操作(多种k值确定以及如何选取初始点方法)

kmeans一般在数据分析前期使用，选取适当的k，将数据聚类后，然后研究不同聚类下数据的特点。算法原理：(1) 随机选取k个中心点；(2) 在第j次迭代中，对于每个样本点，选取最近的中心点，归为该类；(3) 更新中心点为每类的均值；(4) j<-j+1 ,重复(2)(3)迭代更新，直至误差小到某个值或者到达一定的迭代步数，误差不变.空间复杂度o(N)时间复杂...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。