参考自:http://www.icourse163.org/course/XMU-1002335004?tid=1003024012
HDFS
负责整个分布式文件的存储
YARN
负责调度内存CPU带宽等计算资源
MapReduce
负责离线计算和批处理
基于磁盘计算
Tez
将MapReduce作业进行分析优化,构成有向无环图(理清处理顺序,避免工作重复)
Spark
逻辑与MapReduce相同
基于内存计算,性能远高于MapReduce
Hive
基于Hadoop的数据仓库工具
支持SQL语言,将SQL语句转化为MapReduce作业后执行
Hive架构在MapReduce之上
Pig
基于Hadoop的大规模数据分析平台
提供类似SQL的查询语言Pig Latin
Oozie
工作流管理工具
Zookeeper
负责分布式协调服务(集群管理,分布式锁一致性)
HBase
分布式的、面向列的、适合非结构化数据存储的数据库
支持随机读写和实时应用
Flume
日志收集分析框架
Sqoop
用于Hadoop与传统数据库间进行数据的传输
Ambari
Hadoop快速部署工具
支持Apache Hadoop集群的供应、管理和监控