离线项目下的Hadoop生态栈
Hadoop生态离线项目
Hadoop:(无论什么大数据项目Hadoop是少不了的)
HDFS MapReduce(主要是做清洗) YARN (大数据项目基本都是跑在yarn资源框架上)
Hadoop集群
Hive:(主要是做计算)
外部表 (会使用)
SQL (会使用)
数据倾斜 (会遇到的问题)
优化
基于元数据管理 (需要拿到元数据管理)
SQL ==> MapReduce (hive不仅仅是写sql,重要的是给一个sql语句如何分析生成的stage)
Flume
调度:(作业的调度)
c