基于Spark的KMeans算法的并行化实现

最新推荐文章于 2024-05-30 08:42:49 发布

MasanoYu

最新推荐文章于 2024-05-30 08:42:49 发布

阅读量855

点赞数

分类专栏：分布式文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43437766/article/details/109742368

版权

分布式专栏收录该内容

1 篇文章 0 订阅

订阅专栏

聚类分析算法集中的KMeans以快速简单、对大数据集有较高的效率和可伸缩性、时间复杂度近于线性、适合挖掘大规模数据集等优点而被广泛应用，但该算法也有其特定的性能瓶颈。

KMeans算法初始化过程中预先设定的K值很难估计，大多数全凭经验决定，具有主观性
算法开始前随机选定的初始类簇中心也会在很大程度上影响聚类的结果

传统的数据挖掘模型及其优化算法大多在单机上进行串行运算，当面对如此复杂多样的大规模数据集和多维数据类型时，由于单机的计算资源有限而造成挖掘算法不能快速准确地完成数据挖掘任务

hadoop适合处理离线批处理文件，对于迭代运算和实时处理表现很差。

KMeans算法简单高效，适合数据量大、特征维度搞的数据集，而且它对数据的依赖度较低

采用支持向量机、遗传算法来确定最佳K值

Spark提出的RDD（Resilient Distributed Datasets）是一种弹性分布式数据集，应用程序可以将中间计算结果暂存到内存中，方便下一次迭代计算，节省不必要的IO，还可以实现数据集的重用，进而可以优化迭代计算的负载。

RDD的核心思想：它将数据集缓存在内存中，并用Lineage机制来进行容错
功能特性：具有智能容错机制、位置感知调度和可伸缩性
Spark会把迭代计算所需要的初始数据定义为RDD并以分区的形式加载到集群中所有计算节点的内存分区中，接着由计算节点里的人物集对本地内存执行迭代计算。当计算节点的内存远远大于待处理的数据集时，迭代计算过程中应用程序基本无需和磁盘数据进行数据IO

分布式计算环境下KMeans算法并行化研究

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
基于Spark的KMeans算法的并行化实现

聚类分析算法集中的KMeans以快速简单、对大数据集有较高的效率和可伸缩性、时间复杂度近于线性、适合挖掘大规模数据集等优点而被广泛应用，但该算法也有其特定的性能瓶颈。KMeans算法初始化过程中预先设定的K值很难估计，大多数全凭经验决定，具有主观性算法开始前随机选定的初始类簇中心也会在很大程度上影响聚类的结果传统的数据挖掘模型及其优化算法大多在单机上进行串行运算，当面对如此复杂多样的大规模数据集和多维数据类型时，由于单机的计算资源有限而造成挖掘算法不能快速准确地完成数据挖掘任务hadoop适合处
复制链接

扫一扫

专栏目录

MasanoYu CSDN认证博客专家 CSDN认证企业博客

码龄6年

12: 原创

16万+: 周排名

170万+: 总排名

8274: 访问

: 等级

165: 积分

2: 粉丝

0: 获赞

2: 评论

17: 收藏

私信

关注

热门文章

分类专栏

BUG 1篇
ML 1篇
python 1篇
项目分析 2篇
分布式 1篇
nlp 1篇
cv
作业 2篇
Java 1篇

最新评论

A05-基于人工智能的视觉识别技术
XyD3°: 安全帽的数据集还有吗？有的话能不能分享给我下，谢谢啦

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。