K-Means与K-Means++_k-means++聚类获取先验框比k-means慢很多吗-CSDN博客

本文链接：https://blog.csdn.net/qq_20962187/article/details/81333477

本文介绍了K-Means与K-Means++聚类算法，通过步骤展示了如何从原始数据中进行无监督学习，将样本划分为K个类别。初始阶段随机选择K个中心点，接着不断迭代，每个样本分配到最近的中心点所在的簇，然后更新簇的中心。此过程持续直至中心点不再变化，最终实现数据的聚类。计算中心点距离采用了欧几里得算法。

摘要由CSDN通过智能技术生成

K-Means介绍
   K-means算法是聚类分析中使用最广泛的算法之一。它把n个对象根据他们的属性分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。其聚类过程可以用下图表示：

这里写图片描述
如图所示，数据样本用圆点表示，每个簇的中心点用叉叉表示。(a)刚开始时是原始数据，杂乱无章，没有label，看起来都一样，都是绿色的。(b)假设数据集可以分为两类，令K=2，随机在坐标上选两个点，作为两个类的中心点。(c-f)演示了聚类的两种迭代。先划分，把每个数据样本划分到最近的中心点那一簇；划分完后，更新每个簇的中心，即把该簇的所有数据点的坐标加起来去平均值。这样不断进行”划分—更新—划分—更新”，直到每个簇的中心不在移动为止。
求中心点距离一般采用欧几里德算法计算。

 Kmeans算法的缺陷
**聚类中心的个数K 需要事先给定，但在实际中这个 K 值的选定是非常难以估计的，很多时候，事先并不知道给定的数据集应该分成多少个类别才最合适
Kmeans需要人为地确定初始聚类中心，不同的初始聚类中心可能导致完全不同的聚类结果。（可以使用Kmeans++算法来解决）**
针对上述第2个缺陷，可以使用Kmeans++算法来解决
**K-Means ++ 算法**
 k-means++算法选择初始seeds的基本思想就是：初始的聚类中心之间的相互距离要尽可能的远。
从输入的数据点集合中随机选择一个