hdfs:分布式存储系统
mapreduce:负责计算(分布式并行编程模型)
yarn:负责资源的调度分配
mapreduce读磁盘,spark读内存,所以spark更快
Tez比mapreduce快10倍,spark比mapreduce快100倍,但数据量小的时候没有优势
Flume是日志采集工具
sqoop是ETL工具,所谓的ETL就是对数据进行清洗,转换,抽取这些工作
(把数据从mysql——业务数据库,拿到hdfs)
Oozie,azkaban是作业流调度系统(调度工具)