hadoop生态系统组件目前的理解(先记录,有些地方理解不正确,后面修改)

本文详细介绍了Hadoop生态中的重要组件,包括YARN资源调度器、HDFS分布式文件系统、ZooKeeper协调服务、HBase分布式数据库、Hive数据仓库工具、Oozie工作流管理系统、Sqoop数据迁移工具、Hue交互式界面、Flume数据收集系统、Impala实时查询引擎以及Pig数据处理语言。通过对这些组件的学习,可以全面了解Hadoop集群的工作原理和应用。
摘要由CSDN通过智能技术生成

一,yarn

ResourceManager、Nodemanager、App Master。

ResourceManager拿到任务后,根据掌握的各个NodeManager的资源情况,决定在哪些主机上创建App Master。

各个App Master与本机的NodeManager申请Container后,在本机运行启动多个map和reduce。




二,hdfs


NameNode、SecondaryNameNode、DataNode。

NameNode就是Index的作用。没有什么好说的。如果有机器Down掉了,NameNode会从备用机架上的节点找出备份返回。



三,ZooKeeper


一致性服务的组件。




四,HBase

kv,只支持一级index。










五,Hive


用于数据仓库,表级别的处理。不建立索引,不是用来高速查询的。



六,Oozie

多个Map Reduce程序的调度。配置xml。


七,Sqoop

主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。



八,Hue



九,Flume


Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。




十,Impala



十一,Pig




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值