大数据挖掘方案

概述

spark是实时大数据分析、挖掘的流行方案,hadoop是大数据存储和运行的流行方案,本demo主要表述用spark + hadoop如何做大数据挖掘的通用方案,包含了,包括了环境资源整合、spark和hadoop的整合,各部分模块的关系,并给出了可用的java 代码框架,和可运行的demo代码。

详细

一、设计背景

为了满足大数据实时挖掘的需要


二、设计要求:

1、数据存储

A、大数据存储标准

系统需要满足以T基本的数据存储量设计标准。

B、规模可伸缩

平台的规模可以平衡伸缩扩展

C、数据可以快速运算

数据必须是支持快速运算得出结果的


三、架构方案

1、架构图

大数据挖掘、分析的的通用流程如下:

1、先是数据采集,这里我们叫做原始数据

2、采集完之后,数据经过数据清洗模块,进行清洗

3、清洗完之后,会被数据挖掘模块进行运算

4、数据挖掘模块运行的结果,会生成相关的可用模型

  • 3
    点赞
  • 47
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值