K-means clustering algorithm,K-means聚类算法,它是无监督聚类的一种,可以用距离度量来将样本集分成K个类。
1. 关于K-means algorithm
假如有如下的样本分布情况(左图),那么对这些样本进行聚类,我们人为做会怎么做(右图)。
那么如果,样本的分布情况是这样的:
人为怎么来进行聚类呢,或者出现样本中数据的维度超过三维了,维度很高,那么我们人为又怎么来进行分类呢?
所以,我们需要一个聚类的算法,然后让计算机来替我们完成分类工作,我们看结果就行了。所以,有了K-means algorithm。K-means algorithm的过程如下:
1)首先要考虑我们要将样本集分成几类,即K=?。决定了K以后,就好办了。我们随机选择K个样本作为K个中心。
2)计算样本集中所有样本到这些中心的距离,假如某个样本找到距离最近的中心,就把这个样本归类给这个中心,直到所有的样本都归类完毕。