Spark 聚类算法 ---- 聚类算法效果评估

shiter

已于 2022-03-16 17:46:08 修改

阅读量993

点赞数 1

分类专栏：基于大数据的机器学习原理与最佳实践大数据机器学习实践探索文章标签： spark 算法 scala 聚类评估

于 2021-08-03 00:46:14 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangyaninglm/article/details/119336344

版权

大数据机器学习实践探索同时被 2 个专栏收录

130 篇文章 124 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

基于大数据的机器学习原理与最佳实践

81 篇文章 140 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

文章大纲

简介
spark 聚类评估
spark 聚类统计信息
- kmeans_model.summary
- spark 输出聚类类别和聚类中心及其统计值
聚类评估指标
参考文献

简介

Kmeans算法是个具有较强实用性的聚类算法，处理大数据集有较高的效率且具有可伸缩性。尤其适合接近线性时间复杂度的大规模数据集。K值的选取、初始聚类中心和初始划分对聚类结果有较大的影响，聚类结果的好坏可以用肘部法和轮廓分析法来评价，优化初始聚类中心店和改进距离量度方法可以提高结果的准确性。

与有监督学习不同的是，聚类分析没有一个可靠的评价指标，可以用来评价不同聚类算法的结果。此外，由于k m e a n s需要k作为输入，而不是从数据中学习，所以在任何问题中，对于集群的数量都没有绝对正确的答案。

局限性及其改进方向
k-means算法需要解决的问题和可能的改进方法如下：

（一）初始聚类中心的选择是随机的
为了优化初始聚类中心，首先随机选择首个初始聚类中心点，接着选取距离该点最远的那个点作为第二个初始聚类中心点，然后选取距离前两个点的最近距离最大的点作为第三个初始聚类中心点，直至选出K个初始类簇中心点。

（二）如果簇的形状是球形的，Kmeans算法可以很好地捕捉数据的结构。它总是试图围绕质心构造一个漂亮的球形。这意味着，一旦集群具有复杂的几何形状，kmeans就不能很好地对数据进行聚类。造成这种局限性的主要原因在于选取距离度量的方法。文献[5]中阐述了基于两种距离度量的改进方法

了解本专栏

超级会员免费看

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

shiter 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。