Hadoop生态圈组件

本文详细介绍了Hadoop生态圈中的关键组件:HDFS提供分布式文件存储,YARN负责资源管理,MapReduce实现分布式计算,HBase是分布式列存数据库,Sqoop用于数据同步,Pig简化MapReduce处理,Hive提供数据仓库服务,Zookeeper实现分布式协作,Flume则专注于日志收集。
摘要由CSDN通过智能技术生成

 

1、HDFS(hadoop分布式文件系统)

是hadoop体系中数据存储管理的基础。他是一个高度容错的系统,能检测和应对硬件故障。

client:切分文件,访问HDFS,与那么弄得交互,获取文件位置信息,与DataNode交互,读取和写入数据。

namenode:主节点,管理HDFS的名称空间和数据块映射信息,配置副本策略,处理客户 端请求。

DataNode:slave节点,存储实际的数据,汇报存储信息给namenode。

secondary namenode:辅助namenode,分担其工作量:定期合并fsimage和fsedits,推送给namenode;紧急情况下和辅助恢复namenode,但其并非namenode的热备。

 

2、yarn (hadoop资源管理器)

负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /NodeManager

  • ResourceManager做的事情是负责协调集群上计算资源的分配。调度、启动每一个 Job 所属的 ApplicationMaster、另外监控 ApplicationMaster 的存在情况。
  • NodeManager 根据要求启动和监视集群中机器的计算容器container。负责 Container
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值