聚类算法的MapReduce并行化分析

最新推荐文章于 2024-05-03 11:07:56 发布

Towan

最新推荐文章于 2024-05-03 11:07:56 发布

阅读量872

点赞数

文章标签：人工智能大数据数据结构与算法

五一假期，还好没有出去，到处都是堵啊。闲在看看分类、聚类算法、关联算法，现总结一下常见的聚类算法并进行MR分析。

1.K-means基本原理：首先随机的选择K个对象，每个对象代表一个簇的初始均值和中心；对剩余的每个对象，根据其与各个簇的均值的距离，将其指派到最相似的簇。然后计算每个簇的新均值，过程不断重复直到准则函数收敛

效率分析：时间复杂度O（nki）、空间复杂度O（k）

MapReduce并行化分析：k-means从逻辑上分为三部分：聚类中心初始化、迭代更新聚类中心、聚类标注。三部分都可以MR并行化

2.CLARANS

基本原理：与k-means相似，也是以聚类中心划分聚类的，一旦k个聚类中心确定了，聚类马上就能完成。不同的是k-means算法以类簇的样本均值代表聚类中心，而CLARANS采用每个簇中选择一个世纪的对象代表该簇。其余的对每个对象聚类到其最相似的代表性对象所在的簇中。

效率分析：时间复杂度O（n^2）、空间复杂度O（ks）

MR并行化分析：CLARANS从逻辑上分为三部分：聚类中心和邻域样本初始化、迭代更新聚类中心、聚类标注；均可并行化处理

3.DBSCAN

基本原理：DBSCAN算法一种基于密度的聚类算法，与划分和层次聚类算法不同，它将簇定义为密度相连的点的最大集合，能够将足够高的密度区域划分为簇，并可以在有噪声的空间数据中发现任意形状的聚类

效率分析：时间复杂度O（n^2）空间复杂度O(n)

MR并行化分析：DBSCAN从逻辑上分为三部分：样本抽样、对抽样样本进行聚类、聚类标注；均可并行化计算。

4.BIRTH

基本原理：BIRTH算法利用层次方法的平衡迭代规约和聚类，是一个综合的层次聚类方法，它用聚类特征和聚类特诊树概括聚类特征，该算法可以通过聚类特征可以方便的进行中心、半径、直径以及类内、类间进行距离的计算

效率分析：时间和空间的复杂度均为O（N）

MR并行化分析：不适合对分隔的数据进行处理，而且是增量计算的

5.Chameleon

基本原理：Chameleon（变色龙算法）是在一个层次聚类中采用动态模型进行聚类的方法。在它的聚类过程中，如果两个簇间的互联性和近似度与簇内部对象间的互联性和近似高度相关，则合并这两个簇。基于动态模型的合并过程中有利于自然的聚类发现，而且只要定义了相似度函数就可以应用于所有类型的数据。

效率分析：时间复杂度O(n^2)、空间复杂度O（n）

MR并行化分析：不适合对分隔数据处理

6.STING

基本原理：STING是一种基于网格的多分辨率聚类技术，它将空间区域划分为矩形单元，针对不同级别的分辨率，通常存在多个级别的矩形单元，这些单元形成了一个层次结构；高层的每个单元划分为多个第一层的单元

效率分析：时间复杂度O(n)、空间复杂度O（l）

MR并行化分析：算法的数据分隔不是简单的块分隔，不适合MR并行化处理

注：n为样本的个数，k为类簇的个数，i为算法的迭代次数，s为每次抽样的个数，d为样本的属性个数

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
聚类算法的MapReduce并行化分析

五一假期，还好没有出去，到处都是堵啊。闲在看看分类、聚类算法、关联算法，现总结一下常见的聚类算法并进行MR分析。1.K-means基本原理：首先随机的选择K个对象，每个对象代表一个簇的初始均值和中心；对剩余的每个对象，根据其与各个簇的均值的距离，将其指派到最相似的簇。然后计算每个簇的新均值，过程不断重复直到准则函数收敛效率分析：时间复杂度O（nki）、空间复杂度O（k）MapReduc...
复制链接

扫一扫

Towan CSDN认证博客专家 CSDN认证企业博客

码龄11年

166: 原创

14万+: 周排名

85万+: 总排名

46万+: 访问

: 等级

6064: 积分

57: 粉丝

36: 获赞

29: 评论

86: 收藏

私信

关注

热门文章

分类专栏

分布式技术 22篇
云计算 11篇
数据挖掘 7篇
搜索引擎 11篇
微博抓取 21篇
数据收集 3篇
java 57篇
网络安全 5篇
知识手册 17篇
版本控制 11篇
linux 22篇
数据结构和算法 3篇
基础服务 19篇
数据库 14篇
zookeeper 6篇
kafka 4篇
solr 10篇
重构 1篇
持续集成 3篇
可视化 1篇
并发编程
高可用 3篇
Lucene 2篇
Java EE 4篇
高性能 3篇
推荐引擎 3篇
机器学习 4篇
消息系统
NLP 2篇
算法 3篇

最新评论

新浪微博的页面解析思考
开渝: 麻烦问下，怎么做的呀？
数据挖掘技术、方法及应用
Tisfy: 我总在想，是否有神灵活在本文灵秀的外表下
U盘安装ubuntu无法引导
霏凡网络科技: 没用
推荐一款java代码生成的插件EMF
一个技术小白haha: 请问博主，在创建EMF　Generator　model时　select　ａ　model　import时选择annotated　Java 就会报错　　 problem were encountered processing the java source. resean: errors were detected while resolving names or processing @model annotation details:no model elements were found in java spurce:check for @model on interfaces and classes 有没有遇见过这种问题
arp断网攻击解决办法
asdasdgfassvzsdv 回复小蓝藻: 肉搏呀，自己实力要强才能教他、她、它做人

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。