spark聚类算法的聚类效果评估指标“轮廓系数”细节

什么是轮廓系数?

参见百度百科,讲的很清楚此处不赘述;
https://baike.baidu.com/item/%E8%BD%AE%E5%BB%93%E7%B3%BB%E6%95%B0/17361607?fr=aladdin

核心问题:
这个计算方法的复杂度是多少?
O(N^2)
其中N为样本数量;

这个复杂度对于spark分布式大数据处理而言,是不可接受的,所以怎么办呢?

spark的轮廓系数计算方法?

资料1 轮廓系数简单计算实现:
http://sujitpal.blogspot.com/2018/03/an-implementation-of-silhouette-score.html

资料2 spark Issue:
https://issues.apache.org/jira/browse/SPARK-14516

资料3 spark 的Issues解答:
https://drive.google.com/file/d/0B0Hyo__bG_3fdkNvSVNYX2E3ZU0/view

资料4 sklearn的实现方式:
https://scikit-learn.org/stable/modules/generated/sklearn.metrics.silhouette_score.html#sklearn.metrics.silhouette_score

通过simple计算方式和预结算两种方式,实现了复杂度降低,得以有效的应用。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值