大数据整体技术流程及架构

本文详细介绍了大数据的整体处理流程,包括数据采集、预处理、入库、分析和展现。在数据采集阶段,讨论了Flume等工具的作用;预处理阶段通过MapReduce清洗和整理数据;数据入库使用Hive;数据分析利用ETL进行;最后通过数据可视化工具如Echarts展示结果。系统架构上,强调了大数据处理与传统BI的区别,以及Hadoop生态在各个阶段的应用,包括任务调度工具Azkaban的重要性。
摘要由CSDN通过智能技术生成

1. 数据处理流程

网站流量日志数据分析是一个纯粹的数据分析项目,其整体流程基本上就是依据数据的处理流程进行。有以下几个大的步骤:

Ø 数据采集

数据采集概念,目前行业会有两种解释:一是数据从无到有的过程(web服务器打印的日志、自定义采集的日志等)叫做数据采集;另一方面也有把通过使用Flume等工具把数据采集到指定位置的这个过程叫做数据采集。

关于具体含义要结合语境具体分析,明白语境中具体含义即可。

Ø 数据预处理

通过mapreduce程序对采集到的原始日志数据进行预处理,比如清洗,格式整理,滤除脏数据等,并且梳理成点击流模型数据。

Ø 数据入库

将预处理之后的数据导入到HIVE仓库中相应的库和表中。

Ø 数据分析

项目的核心内容,即根据需求开发ETL分析语句,得出各种统计结果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值