大数据挖掘方案

本文介绍了大数据实时挖掘的架构方案,包括数据采集、数据清洗、数据挖掘和算法运行服务器的实现,重点讨论了使用Kafka、Hadoop、Spark等技术进行数据处理和扩展。并提供了环境搭建、程序开发及算法编写规则的指导。
摘要由CSDN通过智能技术生成

概述

spark是实时大数据分析、挖掘的流行方案,hadoop是大数据存储和运行的流行方案,本demo主要表述用spark + hadoop如何做大数据挖掘的通用方案,包含了,包括了环境资源整合、spark和hadoop的整合,各部分模块的关系,并给出了可用的java 代码框架,和可运行的demo代码。

详细

一、设计背景

为了满足大数据实时挖掘的需要


二、设计要求:

1、数据存储

A、大数据存储标准

系统需要满足以T基本的数据存储量设计标准。

B、规模可伸缩

平台的规模可以平衡伸缩扩展

C、数据可以快速运算

数据必须是支持快速运算得出结果的


三、架构方案

1、架构图

大数据挖掘、分析的的通用流程如下:

1、先是数据采集,这里我们叫做原始数据

2、采集完之后,数据经过数据清洗模块,进行清洗

3、清洗完之后,会被数据挖掘模块进行运算

4、数据挖掘模块运行的结果&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值