hadoop之离线处理电商项目架构和实现

本文介绍了电商项目的离线数据处理流程,包括使用Flume和Sqoop抽取数据到HDFS,通过MapReduce进行数据清洗,存储到Hive数仓。详细阐述了MR编程实现ETL数据清洗,以及如何在服务器上测试和使用Hive进行基本的统计分析。还探讨了HUE和Zeppelin作为可视化工具在数据排查中的作用,强调了数据压缩和存储格式的重要性。
摘要由CSDN通过智能技术生成

处理流程

1.涉及的基本技术组件

Hadoop:HDFS MapReduce(清洗) YARN、需要部署Hadoop集群

Hive:外部表、SQL 、解决数据倾斜 、sql优化、基于元数据管理、SQL 到MR过程

Flume:将数据抽取到hdfs

调度:crontab、shell、Azkaban

HUE:可视化的notebook,CM自带 ,排查数据

2.处理流程

大数据开发:关注的是2、3、4步骤。1,2,3都是属于ETL步骤,但是1可能是早就有的任务。

步骤1:使用flume/logstash抽取服务器上的日志数据以及使用sqoop/spark抽取关系型数据库的数据将数据抽取到hdfs(压缩+普通文本格式)。
步骤2:将hdfs上数据通过(MR/Spark/Flink)清洗处理后存放数仓(hive)
步骤3:将原始的数据放到目标位置,hive的外部表
步骤4:业务计算 将结果放到,业务表(数据集市)
步骤5:应用程序查询访问,我们这儿可通过HUE查看信息
 

备注1:HUE是个非常强大且方便的可视化界面。在界面能操作hadoop生态圈的组件以及查询 查询组件显示信息。使用场景:排查数据
备注2: zeppelin和HUE较类似的一个工具,但是比HUE好用,目前市场主流是以改zeppelin源码去做自己的可视化界面。
备注3:步骤2、3、4,的数据落地hdfs时,数据压缩格式、数据的存储格式选择很重要

 

 

实现(ETL数据清洗)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值