一,yarn
ResourceManager、Nodemanager、App Master。
ResourceManager拿到任务后,根据掌握的各个NodeManager的资源情况,决定在哪些主机上创建App Master。
各个App Master与本机的NodeManager申请Container后,在本机运行启动多个map和reduce。
二,hdfs
NameNode、SecondaryNameNode、DataNode。
NameNode就是Index的作用。没有什么好说的。如果有机器Down掉了,NameNode会从备用机架上的节点找出备份返回。
三,ZooKeeper
一致性服务的组件。
四,HBase
kv,只支持一级index。
五,Hive
用于数据仓库,表级别的处理。不建立索引,不是用来高速查询的。
六,Oozie
多个Map Reduce程序的调度。配置xml。
七,Sqoop
主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
八,Hue
九,Flume
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。