Clara算法的总结

最新推荐文章于 2023-03-09 14:03:09 发布

凡凡_Kevin

最新推荐文章于 2023-03-09 14:03:09 发布

阅读量6.5k

点赞数 4

分类专栏：非监督性学习数据挖掘文章标签：数据挖掘聚类算法 Matlab Python 非监督性学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013834836/article/details/41214709

版权

CLARA算法是一种非监督学习的聚类方法，通过多次抽样和应用PAM算法找到最佳聚类。它从数据集中抽取样本，对每个样本执行PAM，选择最优的k个中心点，并计算总代价。在所有样本中，选取总代价最低的聚类结果作为最终输出。算法的时间复杂度为O(k * (n – k - 1) * (n – k))，适用于大型数据集。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

总结

一、步骤：

CLARA从数据集中抽取多个样本集,对每个样本集使用PAM，并以最好的聚类作为输出。

具体步骤：

1) for i = 1 to v （选样的次数），重复执行下列步骤( (2) ～ (4) ) ；

2) 随机地从整个数据库中抽取一个 N (例如：(40 + 2 k))个对象的样本，调用PAM 方法从样本中找出样本的k 个最优的中心点。

3) 将这 k个中心点应用到整个数据库上，对于每一个非代表对象Oj，判断它与从样本中选出的哪个代表对象距离最近。

4) 计算（3）中得到的聚类的总代价。若该值小于当前的最小值,用该值替换当前的最小值,保留在这次选样中得到的k 个代表对象作为到目前为止得到的最好的代表对象的集合。

5) 返回到步骤（1），开始下一个循环。

算法结束后，输出最好的聚类结果。

二、代价计算

1. 找出样本中k个最优的中心点:

PAM 算法首先随机地选择了 k 个对象，然后用一个非选中对象0h 替换一个选中对象0i，然后为每一个非选中对象0j 计算代价Cjih ，将所有Cjih累加，得到用0h 替换0i的总代价TCjih。接下来用所有非代表点替换0i并计算出(n – k)个总代价。如果(n – k)个总代价中有小于零且绝对值最大则发生替换，如果(n – k)个总代价都大于零则不发生替换。继续对余下的代表点重复以上操作，最后得出此样本下的k个最优代表点。完成后，进行下一次抽样，并选出k个最有点。

注：根据0j 属于不同情况,Cji1 用不同的公式定义。

2.

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。