给定D维空间上的数据集,并不知道这些数据集所对应的类型和标号,通过聚类方法将这些数据集划分成K类。K-means聚类是一种无监督模式的学习。
聚类的原则就是使准则函数最小:
聚类的验证有多种方式,通常较通用的应该一定都会有Entropy 熵 和 Accuracy, (Accuracy 里可以包含了precision, recall, f-measure.)假设我们使用k-means算法,通常会加上SSE (Sum of squared errors)平方误差和,其他算法会有不同指标。总体思想为一个cluster聚类内的数据点聚集在一起的密度越高,圈子越小,离centroid中心点越近,那么这个聚类的总体质量相对来说就会越好。
SSE的计算如下: