聚类分析之——Kmeans算法（一）

最新推荐文章于 2024-08-11 16:00:02 发布

六钥

最新推荐文章于 2024-08-11 16:00:02 发布

阅读量3.2k

点赞数

分类专栏：算法文章标签：数据挖掘数据分析算法机器学习

本文链接：https://blog.csdn.net/june2017/article/details/65441389

版权

K-means算法是经典的基于划分的聚类方法，适用于连续性数据。它是一种自下而上的无监督学习方法，依赖于预设的聚类数目和初始中心点选择。算法通过迭代更新中心点，直到满足稳定性条件。应用场景广泛，包括用户分群和数据离散化。选择合适的初始中心和理解其局限性对于优化聚类结果至关重要。

摘要由CSDN通过智能技术生成

原创地址：http://www.toutiao.com/i6399454239554273794/

聚类分析是一种静态数据分析方法，常被用于数据挖掘、机器学习、模式识别等领域，聚类是一种无监督式的学习方法。它是在未知样本类别的情况下，通过计算样本彼此间的距离（欧式距离,马式距离，汉明距离，余弦距离等）来估计样本所属类别。从结构性来划分，聚类方法分为自上而下和自下而上两种方法。聚类的算法有很多种，大约几十种，K-means算法是十大经典数据挖掘算法之一。

K-means算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。它是一种自下而上的聚类方法。K-means算法最大的优点是好理解、简单、运行速度快，但只能应用于连续性的数据；缺点是聚类的结果与我们初始设置的中心点的选择有直接关系，并且需要我们自己提供聚类的数目，但是可以通过多次聚类取最佳的结果来设定初始的聚类数目，如果当我们不知道样本集将要聚成多少个类别的时候，那么这时候不适合用kmeans算法，推荐使用其他方法来聚类，如（hierarchical 或meanshift）。

K-means算法的基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果，大概就是这个意思，“物以类聚、人以群分”。具体流程如下：