聚类是无监督学习中最常用的算法。
在机器学习与数据挖掘中,K-Means((K均值))是一种无监督学习的算法。
1 具体算法流程如下:
(1)随机从样本中选取K个元素,作为k个类别的中心。
(2)分别计算每个样本到k个类别中心的距离,并将这些样本划归到距离最近的类别。即数据点距离哪个中心点最近就分到哪一类中。可以认为距离越近,两者之间越相似。而不同距离的度量其聚类结果不同。各种距离的计算
(3)将每个类别中心更新为隶属该类别的所有样本的均值;
(4)重复2~3步,直到迭代次数达到一定值或者每一类中心点移动小于某个临界值(即认为已经收敛)。
2 K-means的目标函数:
(多次运行K均值,产生的多个不同的簇集,优选SSE最小的。)<