聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。
聚类的方法有:K-means聚类、均值漂移聚类、基于密度的聚类方法。
K-means:K-means聚类算法是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。
步骤:
1)从样本中随机选择K个聚类中心;
2)寻找每个数据点{X}距离最近的中心点,将两者关联,最后所有与同一中心点关联的点都聚成一类。
3)确定每组关联点的中心,并计算其均值。
反复操作2~3步,当中心点不发生变化时停止操作。