论文：Banerjee A, Ghosh J. On Scaling Up Balanced Clustering Algorithms.[C]笔记

最新推荐文章于 2020-09-27 20:30:35 发布

分布式数据管理

最新推荐文章于 2020-09-27 20:30:35 发布

阅读量404

点赞数

分类专栏：机器学习文章标签：平衡聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BOBOyspa/article/details/77996282

版权

机器学习专栏收录该内容

9 篇文章 2 订阅

订阅专栏

实验描述：

算法在2个数据集上进行测试，分别是20-newsgroups dataset和Yahoo news dataset，其中20-newsgroups dataset包含20000条文本记录，每条记录通过26099个维度进行存储；Yahoo news dataset包含2340条记录，每条记录通过21839个维度进行存储；

这里写图片描述

上图表示，(a)与(b)分别表示在两个数据集上的目标函数值与error bar值随着K变化的改变趋势，当k小于15时，新方法fsk-means与传统K-Means的目标函数值相同，当K大于15时，fsk-means在目标函数上的表现要优于传统K-Means方法；

这里写图片描述

上图表示，(c)与(d)分别表示在两个数据集上的聚类结果的簇大小方差随着K变化的改变趋势，新方法fsk-means在K的值大于15时，簇大小方差较小；

这里写图片描述

上图表示，(e)与(f)分别表示在两个数据集上聚类结果的最小簇大小与期望的簇大小比值，传统K-Means方法在K大于15时出现了规模很小的簇甚至出现了空簇，而fsk-means方法簇的大小较平衡且没有出现空簇的情况；

另外，fsk-means具有三个版本，分别是greedy fsk-means, normal fsk-means, rippling fsk-means, 其中greedy fsk-means方法的目标函数值在相关系数变化范围内依然表现较好；

这里写图片描述

(a)(b)(c)(d)分别表示使用20-newsgroups dataset数据集中1000,2000,5000,10000条数据的三种聚类的目标函数结果；

这里写图片描述

(e),(f)表示k为20，n分别为2000与5000三种情况下聚类簇大小的方差；

算法优缺点：

优点：算法很大参数范围内都能进行平衡聚类，第一步抽取样本的规模对聚类效果没有影响，对于Yahoo!数据集，数据本身原始簇很不平衡的基础上，fsk-means方法能够取得较好的平衡聚类效果；

缺点：在聚类过程中计算量较大，算法针对的数据种类有限；

分布式数据管理

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文：Banerjee A, Ghosh J. On Scaling Up Balanced Clustering Algorithms.[C]笔记

实验描述：算法在2个数据集上进行测试，分别是20-newsgroups dataset和Yahoo news dataset，其中20-newsgroups dataset包含20000条文本记录，每条记录通过26099个维度进行存储；Yahoo news dataset包含2340条记录，每条记录通过21839个维度进行存储；上图表示，(a)与(b)分别表示在两个数据集上的目标函数值与error
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。