数据挖掘--kmeans聚类算法mapreduce实现

最新推荐文章于 2023-10-31 14:15:39 发布

benpaobagzb

最新推荐文章于 2023-10-31 14:15:39 发布

阅读量2.1k

点赞数

分类专栏：数据挖掘算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/benpaobagzb/article/details/48059303

版权

数据挖掘算法专栏收录该内容

34 篇文章 2 订阅

订阅专栏

通过聚类算法可以把相似度高的一类对象归为一类，从而实现“物以类聚”；我们可以用来对用户进行聚类分群、节目分组等实际应用。

附件是核心MR的实现和实验数据。

基本简介

　　k-means 算法接受输入量 k ；然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。

编辑本段处理流程

k-means 算法基本步骤

（1）从 n个数据对象任意选择 k 个对象作为初始聚类中心；　　

（2）根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分；　　

（3）重新计算每个（有变化）聚类的均值（中心对象）；　　

（4）计算标准测度函数，当满足一定条件，如函数收敛时，则算法终止；如果条件不满足则回到步骤（2）。

流图

具体MR实现

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘--kmeans聚类算法mapreduce实现

通过聚类算法可以把相似度高的一类对象归为一类，从而实现“物以类聚”；我们可以用来对用户进行聚类分群、节目分组等实际应用。附件是核心MR的实现和实验数据。基本简介　　k-means 算法接受输入量 k ；然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。