Hadoop五个进程的作用和联系

1.NameNode:

    相当于一个领导者,负责调度 ,比如你需要存一个1280m的文件
    如果按照128m分块 那么namenode就会把这10个块(这里不考虑副本)
    分配到集群中的datanode上并记录对于关系 。当你要下载这个文件的时    候namenode就知道在那些节点上给你取这些数据了。它主要维护两个    map 一个是文件到块的对应关系 一个是块到节点的对应关系。



2. secondarynamenode:
    它是namenode的一个快照,会根据configuration中设置的值来
    决定多少时间周期性的去cp一下namenode,记录namenode中
    的metadata及其它数据    

3. NodeManager(NM):
    是YARN中每个节点上的代理,它管理Hadoop集群中单个计算节点
    包括与ResourceManger保持通信,监督Container的生命周期管理,
    监控每个Container的资源使用(内存、CPU等)情况,追踪节点健
    康状况,管理日志和不同应用程序用到的附属服务(auxiliary service)


4.DataNode:

      a.DataNode的需要完成的首要任务是K-V存储

      b.完成和namenode 通信 ,这个通过IPC 心跳连接实现。
         此外还有和客户端 其它datanode之前的信息交换

      c.完成和客户端还有其它节点的大规模通信,这个需要直接
         通过socket 协议实现。
    


5.ResourceManager:
    在YARN中,ResourceManager负责集群中所有资源的统一管理和分配,它接收来自各个节点(NodeManager)的资源汇报信息,并把这些信息按照一定的策略分配给各个应用程序(实际上是ApplicationManager)
RM与每个节点的NodeManagers (NMs)和每个应用的ApplicationMasters (AMs)一起工作。
    a.NodeManagers 遵循来自ResourceManager的指令来管理单一节点上的可用资源。
    b.ApplicationMasters负责与ResourceManager协商资源与NodeManagers合作启动容器


上面的一些名词解释

ApplicationMaster
    计算应用的资源需求,资源可以是静态或动态计算的,静态的一般是Client申请时就指定了,动态则需要ApplicationMaster根据应用的运行状态来决定  根据数据来申请对应位置的资源(Data Locality)  向ResourceManager申请资源,与NodeManager交互进行程序的运行和监控,监控申请的资源的使用情况,监控作业进度  跟踪任务状态和进度,定时向ResourceManager发送心跳消息,报告资源的使用情况和应用的进度信息 负责本作业内的任务的容错





Container的一些基本概

念和工作流程如下:

(1)  Container是YARN中资源的抽象,它封装了某个节点上一定量的资源(CPU和内存两类资源)。它跟Linux Container没有任何关系,仅仅是YARN提出的一个概念(从实现上看,可看做一个可序列化/反序列化的Java类)。

(2)  Container由ApplicationMaster向ResourceManager申请的,由ResouceManager中的资源调度器异步分配给ApplicationMaster;

(3) Container的运行是由ApplicationMaster向资源所在的NodeManager发起的,Container运行时需提供内部执行的任务命令(可以使任何命令,比如java、Python、C++进程启动命令均可)以及该命令执行所需的环境变量和外部资源(比如词典文件、可执行文件、jar包等)。



另外,一个应用程序所需的Container分为两大类,如下:

(1) 运行ApplicationMaster的Container:这是由ResourceManager(向内部的资源调度器)申请和启动的,用户提交应用程序时,可指定唯一的ApplicationMaster所需的资源;

(2) 运行各类任务的Container:这是由ApplicationMaster向ResourceManager申请的,并由ApplicationMaster与NodeManager通信以启动之。以上两类Container可能在任意节点上,它们的位置通常而言是随机的,即ApplicationMaster可能与它管理的任务运行在一个节点上。


  • 5
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
PHP Hadoop 库是一个 PHP 库,用于与 Apache Hadoop 分布式计算框架进行交互。它提供了一组 API,可以在 PHP 执行 Hadoop 命令,并处理 Hadoop 文件系统的数据。 Apache Hadoop 是一个开源的分布式计算框架,用于处理大规模数据集。它由两个核心组件组成:Hadoop Distributed File System(HDFS)和MapReduce。 HDFS 是一个分布式文件系统,用于存储大规模数据集。它将数据划分为块,并将这些块分布在多个计算机上。每个块都有多个副本,以实现容错性和高可用性。 MapReduce 是一个分布式计算框架,用于处理大规模数据集。它将计算任务分解为多个子任务,并在多个计算机上并行执行这些子任务。最终结果由 MapReduce 框架进行整合。 Hadoop 各种进程作用如下: 1. NameNode:管理 HDFS 的文件系统命名空间,包括文件和目录的创建、删除和重命名等操作,还负责分配数据块给 DataNode。 2. DataNode:存储 HDFS 的数据块,负责数据块的创建、删除和复制等操作,并向 NameNode 报告自己存储的数据块信息。 3. Secondary NameNode:帮助 NameNode 处理元数据日志,并定期合并 HDFS 的编辑日志和镜像文件,以防止 NameNode 发生故障。 4. JobTracker:管理 MapReduce 作业的提交、调度和监控等操作,还负责分配任务给 TaskTracker。 5. TaskTracker:执行 MapReduce 任务,包括 Map 和 Reduce 任务。每个 TaskTracker 运行在一个 DataNode 上,以便更快地读取和写入数据。 6. ResourceManager:管理 YARN(Yet Another Resource Negotiator)的资源分配,包括内存、CPU、磁盘和网络带宽等资源,还负责启动和停止应用程序的容器。 7. NodeManager:管理单个节点上的容器,包括启动和停止容器、监控容器资源使用情况和处理容器内的任务等操作。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值