基于
Spark
的大数据聚类研究及系统实现
王
磊
1,2,3
邹恩岑
1,2,3
曾
诚
4
奚雪峰
1,2,3
陆
悠
1,2,3
【摘
要】
传统聚类算法由于单机内存和运算能力的限制已经不能满足当前大数
据处理的要求,因而迫切需要寻找新的解决方法。针对单机内存运算问题,结
合聚类算法的迭代计算特点,提出并实现了一种基于
Spark
平台的聚类系统。
针对稀疏集和密集集两种不同类型的数据集,系统首先采用不同策略实现数据
预处理;其次分析比较了不同聚类算法在
Spark
平台下的聚类性能,并给出最
佳方案;最后利用数据持久化技术提高了计算速度。实验结果表明,所提系统
能够有效满足海量数据聚类分析的任务要求。
【期刊名称】
数据采集与处理
【年
(
卷
),
期】
2018(033)006
【总页数】
9
【关键词】
Spark
;聚类;大数据
基金项目:国家自然科学基金
(61673290,61750110534,61728205)
资助项目;
苏州市科技发展计划
(SYG201707,SYG201817)
资助项目。
修订日期:
2017-11-13
引
言
聚类是数据挖掘研究的重要方法之一。大数据聚类能有效支撑如客户群细分、
文本主题发现和信息检索等大量实际应用
[1]
。传统聚类方法的重要假设是数据
能够一次性地载入内存,然而大部分聚类算法都是迭代型算法,下一轮计算依
赖于上一轮的计算结果。随着数据量的急剧增大,单机的内存和运算能力已经
不能满足算法要求,需要人们利用分布式计算系统进行并行处理。
Hadoop
平