目录
1.算法概述
一、“ K”和“means”
K:有k个质心(簇)。
means:质心是一个簇所有点的均值。
K-means属于硬聚类。硬聚类指数据只能属于一个簇,与软聚类:数据可以不同程度的属于多个类相反。
二、算法步骤
S1:选取初始质心:从样本点中随机抽取K个点作为质心。
S2:所有样本点归类:计算所有样本点到K个质心的距离,将其划分到与其距离最近的簇中心所在簇。
S3:重新确定质心:新质心 = 簇内所有点的均值。
S4:循环更新:重复步骤S2,S3,直到质心不再变化。
以空间中的k个点为中心进行聚类,对最靠近它们的对象归类,类别数为k。不断迭代,逐次更新各聚类中心的值,直至得到最好的聚类结果。
最终的k个聚类具有以下特点
各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。该算法的最大优势在于简洁和快速,算法的关键在于预测可能分类的数量以及初始中心和距离公式的选择。
算法描述
假设要把样本集分为k个类别
(1)初始时随机地从样本集D={X1,X2,...,Xm}中选择k个点作为k个类的初始聚类中心;
(2)在第i次迭代中,对任意一个样本点,