文本挖掘之聚类算法之CLARA聚类算法

最新推荐文章于 2022-08-08 16:07:53 发布

红豆和绿豆

最新推荐文章于 2022-08-08 16:07:53 发布

阅读量3.5k

点赞数

分类专栏：数据挖掘文本挖掘文章标签： CLARA 划分聚类聚类 PAM

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011955252/article/details/50805039

版权

数据挖掘同时被 2 个专栏收录

54 篇文章 2 订阅

订阅专栏

46 篇文章 3 订阅

订阅专栏

CLARA (Clustering LARge Applications，大型应用中的聚类方法)(Kaufmann and Rousseeuw in 1990):不考虑整个数据集, 而是选择数据的一小部分作为样本.

CLARA算法的步骤：

它从数据集中抽取多个样本集, 对每个样本集使用PAM, 并以最好的聚类作为输出
　　CLARA 算法的步骤:
　　(1) for 　i = 1 to v (选样的次数) ,重复执行下列步骤( (2) ～ (4) ) :
　　(2) 随机地从整个数据库中抽取一个N(例如：(40 + 2 k))个对象的样本,调用PAM方法从样本中找出样本的k个最优的中心点。
　　(3)将这k个中心点应用到整个数据库上，对于每一个非代表对象Oj ,判断它与从样本中选出的哪个代表对象距离最近.
　　(4) 计算上一步中得到的聚类的总代价. 若该值小于当前的最小值,用该值替换当前的最小值,保留在这次选样中得到的k个代表对象作为到目前为止得到的最好的代表对象的集合.
　　(5) 返回到步骤(1) ,开始下一个循环.
　　算法结束后，输出最好的聚类结果

CLARA算法的优点与缺点：

优点: 可以处理的数据集比 PAM大
　　缺点:

1有效性依赖于样本集的大小

2基于样本的好的聚类并不一定是整个数据集的好的聚类, 样本可能发生倾斜
　　例如, Oi是整个数据集上最佳的k个中心点之一, 但它不包含在样本中, CLARA将找不到最佳聚类

红豆和绿豆

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。