spark聚类算法的聚类效果评估指标“轮廓系数”细节

最新推荐文章于 2024-05-30 15:50:09 发布

奋斗的瘦胖子

最新推荐文章于 2024-05-30 15:50:09 发布

阅读量747

点赞数

分类专栏： spark 机器学习实战文章标签：轮廓系数大数据 Spark 复杂度优化聚类效果

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/QQ1131221088/article/details/113922567

版权

spark 同时被 2 个专栏收录

13 篇文章 0 订阅

订阅专栏

机器学习实战

3 篇文章 0 订阅

订阅专栏

什么是轮廓系数？

参见百度百科，讲的很清楚此处不赘述；
https://baike.baidu.com/item/%E8%BD%AE%E5%BB%93%E7%B3%BB%E6%95%B0/17361607?fr=aladdin

核心问题:
这个计算方法的复杂度是多少？
O(N^2)
其中N为样本数量；

这个复杂度对于spark分布式大数据处理而言，是不可接受的，所以怎么办呢？

spark的轮廓系数计算方法？

资料1 轮廓系数简单计算实现：
http://sujitpal.blogspot.com/2018/03/an-implementation-of-silhouette-score.html

资料2 spark Issue：
https://issues.apache.org/jira/browse/SPARK-14516

资料3 spark 的Issues解答：
https://drive.google.com/file/d/0B0Hyo__bG_3fdkNvSVNYX2E3ZU0/view

资料4 sklearn的实现方式：
https://scikit-learn.org/stable/modules/generated/sklearn.metrics.silhouette_score.html#sklearn.metrics.silhouette_score

通过simple计算方式和预结算两种方式，实现了复杂度降低，得以有效的应用。

奋斗的瘦胖子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark聚类算法的聚类效果评估指标“轮廓系数”细节

什么是轮廓系数？参见百度百科，讲的很清楚此处不赘述；https://baike.baidu.com/item/%E8%BD%AE%E5%BB%93%E7%B3%BB%E6%95%B0/17361607?fr=aladdin核心问题:这个计算方法的复杂度是多少？O(N^2)其中N为样本数量；这个复杂度对于spark分布式大数据处理而言，是不可接受的，所以怎么办呢？spark的轮廓系数计算方法？资料1：http://sujitpal.blogspot.com/2018/03/an-imple
复制链接

扫一扫

专栏目录

奋斗的瘦胖子

博客等级

码龄12年

70
原创

16
点赞

67
收藏

8
粉丝

关注

私信

热门文章

分类专栏

tensorflow 3篇
数据结构与算法 5篇
java 1篇
工具 1篇
任务 1篇
机器学习实战 3篇
统计学习
spark 13篇
Python 4篇
Hadoop 6篇
Linux 2篇
HDFS 3篇
hive 5篇
日常bug 2篇
日常笔记 1篇
LeetCode 32篇
自然语言处理 2篇

最新评论

抽样检验规范——多次（多轮）抽样的理解
摆烂的小石: up，你的二次抽样方法中第一批样本判定应该d1>C1的，一般都会有AC和RE，应该用这两种说明是否合格，这样对小白友好点。第一次抽样规定AC1（允许的不合格数）和RE1（不允许的不合格数），第一次不合格数小于或等于AC1则判定合格，若等于或大于RE1则不合格，若不合格数至于AC1和RE1之间进行第二次抽样，并规定AC2和RE2，累加两个样本中的不合格数与RE2进行比较，小于或等于RE2则合格，反之等于或大于RE2则不合格，多次检验与二次检验类似，只是在最后一次进行累加与最后一次的RE比较判定
数据仓分层的意义及如何优雅地设计数据分层
Tisfy: 文笔流畅，修辞得体，深得魏晋诸朝遗风
找出数组中重复的数字（剑指 Offer 03）
LaoYuanPython: 有幸拜读博主新作！
数据结构与算法--链表(三)
奋斗的瘦胖子: 欢迎讨论
数据仓分层的意义及如何优雅地设计数据分层
奋斗的瘦胖子回复向阳飞行: 这个依赖业务场景，本身这么做是没问题的，很多细化数据层，的第一个原因是，中间层结果有人或者有业务使用。第二个原因是，便于数据追溯和数据生产。可以分段质控，不然，出问题就全部从头开始，成本会更好。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。