概述
spark是实时大数据分析、挖掘的流行方案,hadoop是大数据存储和运行的流行方案,本demo主要表述用spark + hadoop如何做大数据挖掘的通用方案,包含了,包括了环境资源整合、spark和hadoop的整合,各部分模块的关系,并给出了可用的java 代码框架,和可运行的demo代码。
详细
一、设计背景
为了满足大数据实时挖掘的需要
二、设计要求:
1、数据存储
A、大数据存储标准
系统需要满足以T基本的数据存储量设计标准。
B、规模可伸缩
平台的规模可以平衡伸缩扩展
C、数据可以快速运算
数据必须是支持快速运算得出结果的
三、架构方案
1、架构图
大数据挖掘、分析的的通用流程如下:
1、先是数据采集,这里我们叫做原始数据
2、采集完之后,数据经过数据清洗模块,进行清洗
3、清洗完之后,会被数据挖掘模块进行运算
4、数据挖掘模块运行的结果&