分布式文件系统HDFS
文件以多副本的方式进行存储
架构:1 master(NameNode)带n slaves(DataNode);Name node在内存里,datanode在硬盘里。1个文件拆分为多个Block。
NameNode:1负责客户端请求的响应;2负责元数据(文件的名称,副本系数,Block存放的DN)的管理
DataNode:1存储用户的文件对应的数据块(Block);2定期向NN发送心跳信息,汇报本身及其所有的block信息,健康状况。
建议NN和DN部署在不同节点上
常用访问语言:shell命令,java api
资源调度框架YARN
产生背景:MapReduce1.x存在问题:1JobTrackern TaskTracker单点故障&节点压力大不易扩展;资源利用率&运维成本;
不同计算框架可以共享同一个hdfs集群上的数据,享受整体的资源调度。按资源进行分配,提高集群资源利用率
YARN的架构:1ResourceManager:RM;
整个集群同一时间提供服务的RM只有一个,负责集群资源的统一管理和调度;
处理客户端的请求提交/杀死一个作业
2NodeManager:NM;
整个集群有多个,负责自己自身节点资源管理和使用
定时向RM汇报本节点的资源使用情况
接受并处理来自RM的各种命令:启动Container
处理来自AM的命令
单个节点的资源管理
3ApplicationMaster:AM;
每个应用程序对应一个:MR、Spark、负责应用程序的管理
为应用程序向RM申请资源(core。memory),