最近在研究平衡聚类方面的问题,做了些调研,最早研究这方面是2000年 实验效果 在两组实际数据集上测试(简写为I与W),其中I数据集包括351个包括33维的数据点,同时每一个维度的值进行标准化处理;W数据集包括683个包括9维的数据点 上图表示,分别对数据集I和W使用K-Means进行聚类,对于使用不同K的聚类结果而言(10,20,50),随着τ的上升,聚类结果中簇的数据点总数小于τ的簇数目趋势; 上图表示,对于Contrained Clustering与Standard K-Means,对于使用不同K的聚类结果而言(10,20,50),两种方法的损失函数比值随着τ的上升变化趋势(τ为簇中数据点个数); 算法优缺点: 优点:相比于Standard K-Means算法,Contrained Clustering能够寻找到更好的最优点,需要结合k和τ共同来共同确定最优点,例如当k为20,τ为10时,Contrained/Standard的比率大于1; 缺点:对于τ较大时,Contrained Clustering的效果次于传统的Standard K-Means,在τ较小时,除能够发现更好的最优点之外,效果与传统的Standard K-Means相近;