实验描述:
算法在2个数据集上进行测试,分别是20-newsgroups dataset和Yahoo news dataset,其中20-newsgroups dataset包含20000条文本记录,每条记录通过26099个维度进行存储;Yahoo news dataset包含2340条记录,每条记录通过21839个维度进行存储;
上图表示,(a)与(b)分别表示在两个数据集上的目标函数值与error bar值随着K变化的改变趋势,当k小于15时,新方法fsk-means与传统K-Means的目标函数值相同,当K大于15时,fsk-means在目标函数上的表现要优于传统K-Means方法;
上图表示,(c)与(d)分别表示在两个数据集上的聚类结果的簇大小方差随着K变化的改变趋势,新方法fsk-means在K的值大于15时,簇大小方差较小;
上图表示,(e)与(f)分别表示在两个数据集上聚类结果的最小簇大小与期望的簇大小比值,传统K-Means方法在K大于15时出现了规模很小的簇甚至出现了空簇,而fsk-means方法簇的大小较平衡且没有出现空簇的情况;
另外,fsk-means具有三个版本,分别是greedy fsk-means, normal fsk-means, rippling fsk-means, 其中greedy fsk-means方法的目标函数值在相关系数变化范围内依然表现较好;