基于距离的聚类方法--K-means

最新推荐文章于 2024-06-21 17:30:00 发布

Azoobie

最新推荐文章于 2024-06-21 17:30:00 发布

阅读量3.1w

点赞数 1

分类专栏： R语言聚类文章标签： kmeans 层次聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_26230689/article/details/52096107

版权

K-means是一种基于距离的聚类方法，通过迭代寻找使平方误差最小化的划分。该算法对大数据集高效，但k值选择和初始质心影响结果。优化包括结合层次聚类、遗传算法初始化、K-means++等。空簇处理和局部最优是挑战。

摘要由CSDN通过智能技术生成

确定k个划分达到平方误差最小。适用于发现凸面形状的簇，簇与簇之间区别较明显，且簇大小相近。

【优点】

算法快速，简单；对大数据集有较高的效率并且可伸缩；时间复杂度为O(n*k*t), 其中t是迭代次数，接近于线性，并且适合挖掘大规模数据集。

【缺点】

k值的选定难以估计，初始类聚类中心点的选取对聚类结果有较大的影响。经常以局部最优结束，对噪声和孤立点敏感。

【算法过程】

输入：k，data

1) 选取k个点作为质心；

2) 计算剩余的点到质心的距离并将点归到最近的质心所在的类；

3) 重新计算各类的质心；

4) 重复进行2~3步直至新质心与原质心的距离小于指定阈值或达到迭代上限

【优化目标】

聚类的基本假设：对于每一个簇，可以选出一个中心点，使得该簇中的所有的点到该中心点的距离小于到其他簇的中心的距离。虽然实际情况中得到的数据并不能保证总是满足这样的约束，但这通常已经是我们所能达到的最好的结果，而那些误差通常是固有存在的或者问题本身的不可分性造成的。

基于以上假设，N个数据点需要分为K个簇时，k-means要优化的目标函数：

其中，在数据点n被归类到簇k的时候为1，否则为0。

为第k个簇的中心。

直接寻找和

最低0.47元/天解锁文章

关注

1
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。