什么是Hadoop

38 篇文章 1 订阅
14 篇文章 0 订阅

1. 什么是Hadoop

Hadoop是一个开源的分布式计算平台,可以处理大规模数据集并提供高可靠性、高可扩展性、高效性等特性。Hadoop由HDFS(分布式文件系统)和MapReduce(分布式计算框架)两部分组成,同时还包括YARN、Zookeeper等组件。

2. 主要角色

NameNode:负责管理HDFS的元数据,包括文件的名称、大小、块的数量、位置等信息。
DataNode:负责存储HDFS中的数据块。
ResourceManager:负责管理集群中的资源,包括内存、CPU等资源的分配和调度。
NodeManager:负责管理单个节点上的资源,包括内存、CPU等资源的分配和调度。
MapReduce:分布式计算框架,用于处理大规模数据集。
YARN:资源管理系统,可以管理各种分布式应用程序和资源。
Zookeeper:分布式应用程序协同服务,用于协调分布式应用程序。

3. 涉及到的角色及其功能

NameNode:负责管理HDFS的元数据,包括文件的名称、大小、块的数量、位置等信息。
DataNode:负责存储HDFS中的数据块。
ResourceManager:负责管理集群中的资源,包括内存、CPU等资源的分配和调度。
NodeManager:负责管理单个节点上的资源,包括内存、CPU等资源的分配和调度。
MapReduce:分布式计算框架,用于处理大规模数据集。
YARN:资源管理系统,可以管理各种分布式应用程序和资源。
Zookeeper:分布式应用程序协同服务,用于协调分布式应用程序。

4. 角色之间的最佳通讯方式

NameNode和DataNode之间通过心跳机制和数据块的传输协议进行通信。
ResourceManager和NodeManager之间通过心跳机制和资源请求协议进行通信。
MapReduce和YARN之间通过资源请求协议进行通信。
Zookeeper和各个组件之间通过Zookeeper客户端进行通信。

5. 需要监控的指标

CPU和内存:监控各个节点的CPU和内存使用情况,如果使用过高,需要考虑调整资源分配或增加节点。
网络带宽:监控各个节点之间的网络带宽使用情况,如果使用过高,需要考虑调整网络拓扑或增加带宽。
磁盘使用情况:监控HDFS中的磁盘使用情况,如果空间不足,需要增加存储空间或删除无用数据。
任务执行情况:监控任务的执行情况,包括任务的运行时间、完成时间、错误日志等信息,如果任务执行失败或时间过长,需要考虑优化任务或调整资源分配。

6. 进程及其主要作用

NameNode:负责管理HDFS的元数据,包括文件的名称、大小、块的数量、位置等信息。
DataNode:负责存储HDFS中的数据块。
ResourceManager:负责管理集群中的资源,包括内存、CPU等资源的分配和调度。
NodeManager:负责管理单个节点上的资源,包括内存、CPU等资源的分配和调度。
MapReduce:分布式计算框架,用于处理大规模数据集。
YARN:资源管理系统,可以管理各种分布式应用程序和资源。
Zookeeper:分布式应用程序协同服务,用于协调分布式应用程序。
JobTracker进程:负责接收客户端提交的作业,并将其分解为多个任务,分配给各个TaskTracker进行执行。
TaskTracker进程:负责执行JobTracker分配的任务,并向JobTracker汇报任务的状态信息和进度。
在Hadoop2.x版本中,ResourceManager和NodeManager取代了JobTracker和TaskTracker,成为了Hadoop集群的主要进程。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据海中游泳的鱼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值