spark如何进行聚类可视化_基于Spark的大数据聚类研究及系统实现

基于

Spark

的大数据聚类研究及系统实现

1,2,3

邹恩岑

1,2,3

4

奚雪峰

1,2,3

1,2,3

【摘

要】

传统聚类算法由于单机内存和运算能力的限制已经不能满足当前大数

据处理的要求,因而迫切需要寻找新的解决方法。针对单机内存运算问题,结

合聚类算法的迭代计算特点,提出并实现了一种基于

Spark

平台的聚类系统。

针对稀疏集和密集集两种不同类型的数据集,系统首先采用不同策略实现数据

预处理;其次分析比较了不同聚类算法在

Spark

平台下的聚类性能,并给出最

佳方案;最后利用数据持久化技术提高了计算速度。实验结果表明,所提系统

能够有效满足海量数据聚类分析的任务要求。

【期刊名称】

数据采集与处理

【年

(

),

期】

2018(033)006

【总页数】

9

【关键词】

Spark

;聚类;大数据

基金项目:国家自然科学基金

(61673290,61750110534,61728205)

资助项目;

苏州市科技发展计划

(SYG201707,SYG201817)

资助项目。

修订日期:

2017-11-13

聚类是数据挖掘研究的重要方法之一。大数据聚类能有效支撑如客户群细分、

文本主题发现和信息检索等大量实际应用

[1]

。传统聚类方法的重要假设是数据

能够一次性地载入内存,然而大部分聚类算法都是迭代型算法,下一轮计算依

赖于上一轮的计算结果。随着数据量的急剧增大,单机的内存和运算能力已经

不能满足算法要求,需要人们利用分布式计算系统进行并行处理。

Hadoop

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值