kmeans算法

神经涛涛涛

已于 2022-03-15 20:10:30 修改

阅读量184

点赞数

文章标签：聚类数据挖掘机器学习

于 2022-03-15 20:10:13 首次发布

本文链接：https://blog.csdn.net/qq_32804727/article/details/123496771

版权

本文探讨了K-means算法中的关键缺陷，特别是如何选择合适的聚类中心数量K和避免初始化敏感性。K-means++算法通过优先选择距离当前中心较远的数据点作为新中心，有效解决了这些问题。文章介绍了算法步骤并展示了其在实践中的应用。

摘要由CSDN通过智能技术生成

kmeans算法
https://blog.csdn.net/chichoxian/article/details/84075128?utm_medium=distribute.pc_relevant.none-task-blog-2_defaultbaidujs_baidulandingword~default-0.pc_relevant_default&spm=1001.2101.3001.4242.1&utm_relevant_index=3

Kmeans算法的缺陷

聚类中心的个数K 需要事先给定，但在实际中这个 K 值的选定是非常难以估计的，很多时候，事先并不知道给定的数据集应该分成多少个类别才最合适
Kmeans需要人为地确定初始聚类中心，不同的初始聚类中心可能导致完全不同的聚类结果。（可以使用Kmeans++算法来解决）
针对上述第2个缺陷，可以使用Kmeans++算法来解决
K-Means ++ 算法
k-means++算法选择初始seeds的基本思想就是：初始的聚类中心之间的相互距离要尽可能的远。
从输入的数据点集合中随机选择一个点作为第一个聚类中心
对于数据集中的每一个点x，计算它与最近聚类中心(指已选择的聚类中心)的距离D(x)
选择一个新的数据点作为新的聚类中心，选择的原则是：D(x)较大的点，被选取作为聚类中心的概率较大
重复2和3直到k个聚类中心被选出来
利用这k个初始的聚类中心来运行标准的k-means
https://www.cnblogs.com/peizhe123/p/4619066.html

神经涛涛涛

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
kmeans算法

kmeans算法https://blog.csdn.net/chichoxian/article/details/84075128?utm_medium=distribute.pc_relevant.none-task-blog-2defaultbaidujs_baidulandingword~default-0.pc_relevant_default&spm=1001.2101.3001.4242.1&utm_relevant_index=3Kmeans算法的缺陷聚类中心的个数K 需
复制链接

扫一扫