Hadoop离线项目

离线项目下的Hadoop生态栈
Hadoop生态离线项目
Hadoop:(无论什么大数据项目Hadoop是少不了的)
HDFS、MapReduce(主要是做清洗) 、YARN (大数据项目基本都是跑在yarn资源框架上)
Hadoop集群
Hive:(主要是做计算)
外部表 (会使用)
SQL (会使用)
数据倾斜 (会遇到的问题,分场景)
优化
基于元数据管理 (需要拿到元数据管理)
SQL ==> MapReduce (hive不仅仅是写sql,重要的是给一个sql语句如何分析生成的stage)
Flume :采集
调度:(作业的调度)
crontab、shell
Azkaban
HUE:可视化的notebook (web方式) CM
主要用于排查数据(相对于命令行形式来讲非常方便)

项目:通用
集群规模= =>每台机器的配置 = =>机型 CDH

离线处理架构
在这里插入图片描述

流程及注意点
1、采集数据,server主要通过Flume,关系型数据库可以通过spoop或者spark采集
2、以天级别来分log文件的;支持各种文本格式,采集到HDFS上面建议采用文本加压缩
3、清洗过后的数据一般都是落在hive之上;ETL(mapreduce)出来之后是一个分区表
4、数据清洗之后移动数据到数仓,一定要刷元数据信息 ,才能在hue等工具上展示数据,msck肯定不能用

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值