论文:Banerjee A, Ghosh J. On Scaling Up Balanced Clustering Algorithms.[C]笔记

实验描述:

算法在2个数据集上进行测试,分别是20-newsgroups dataset和Yahoo news dataset,其中20-newsgroups dataset包含20000条文本记录,每条记录通过26099个维度进行存储;Yahoo news dataset包含2340条记录,每条记录通过21839个维度进行存储;

这里写图片描述

上图表示,(a)与(b)分别表示在两个数据集上的目标函数值与error bar值随着K变化的改变趋势,当k小于15时,新方法fsk-means与传统K-Means的目标函数值相同,当K大于15时,fsk-means在目标函数上的表现要优于传统K-Means方法;

这里写图片描述

上图表示,(c)与(d)分别表示在两个数据集上的聚类结果的簇大小方差随着K变化的改变趋势,新方法fsk-means在K的值大于15时,簇大小方差较小;

这里写图片描述

上图表示,(e)与(f)分别表示在两个数据集上聚类结果的最小簇大小与期望的簇大小比值,传统K-Means方法在K大于15时出现了规模很小的簇甚至出现了空簇,而fsk-means方法簇的大小较平衡且没有出现空簇的情况;
另外,fsk-means具有三个版本,分别是greedy fsk-means, normal fsk-means, rippling fsk-means, 其中greedy fsk-means方法的目标函数值在相关系数变化范围内依然表现较好;

这里写图片描述
这里写图片描述

(a)(b)(c)(d)分别表示使用20-newsgroups dataset数据集中1000,2000,5000,10000条数据的三种聚类的目标函数结果;

这里写图片描述

(e),(f)表示k为20,n分别为2000与5000三种情况下聚类簇大小的方差;

算法优缺点:

优点:算法很大参数范围内都能进行平衡聚类,第一步抽取样本的规模对聚类效果没有影响,对于Yahoo!数据集,数据本身原始簇很不平衡的基础上,fsk-means方法能够取得较好的平衡聚类效果;
缺点:在聚类过程中计算量较大,算法针对的数据种类有限;
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值