【深入浅出 Yarn 架构与实现】6-3 NodeManager 分布式缓存

不要跳过这部分知识,对了解 NodeManager 本地目录结构,和熟悉 Container 启动流程有帮助。

一、分布式缓存介绍

主要作用就是将用户应用程序执行时,所需的外部文件资源下载缓存到各个节点。
YARN 分布式缓存工作流程如下:

  1. 客户端将应用程序所需的文件资源 (外部字典、JAR 包、二进制文件) 提交到 HDFS 上。
  2. 客户端将应用程序提交到 RM 上。
  3. RM 将与某个 NM 进行通信,启动应用程序 AM,NM 收到命令后,首先从 HDFS 上下载文件 (缓存),然后启动 AM。
  4. AM 与 RM 通信,以请求和获取计算资源。
  5. AM 收到新分配到的计算资源后,与对应的 NM 通信,以启动任务。
  6. 如果应用程序第一次在该节点上启动任务,NM 首先从 HDFS 上下载文件缓存到本地,然后启动任务。
  7. NM 后续收到启动任务请求后,如果文件已在本地缓存,则直接执行任务,否则等待文件缓存完成后再启动。
  8. 各个节点上的缓存文件由对应的 NM 管理和维护。在 Hadoop 中,分布式缓存并不是将文件缓存到集群中各个节点的内存中,而是将文件缓存到各个节点的磁盘上,以便执行任务时直接从磁盘上读取文件。

image.png

二、特性介绍

一)资源可见性和分类

分布式缓存机制是由各个 NM 实现的,主要功能是将应用程序所需的文件资源缓存到本地࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值