K-means算法又称K均值算法,它是聚类算法中最为简单的算法,也是最为常用的聚类算法。
K-means算法主要用于对已知数据集进行非监督聚类,聚类效果的好坏不仅与数据样本有关,而且与聚类质心的选取,以及质心的数目也有很大关系。
在聚类算法中,我们已知训练集 { x(1),...,x(m)} ,我们想把这些数据聚合成一些比较集中的“聚类”。在这里,一般情况下 x(i)∈Rn ;但是没有已知 y(i) 。所以这是一个无监督的学习的问题。
k-means聚类算法步骤如下:
- 随机地初始化聚类质心 μ1,μ2,...,μ