一、hadoop 2.x 产生背景: --hadoop 1.x hdfs 和 MapReduce 在高可用,扩展性 --hdfs 存在问题 nameNode 单点故障 nameNode 压力过大 --MapReduce JobTracker 访问过大,影响系统扩展性 难以支持MapReduce之外的计算框架,spark/storm 二、hadoop 2.x 的特性 1、hdfs: NNFederation、HA; 基于Zookeeper FailoverController : 监控NameNode 健康状态 2、MapReduce : 运行在YARN上的MR 3、YARN: 资源管理系统 核心思想:将MapReduce 的JobTracker 的资源管理 和任务调度两个功能分开 分别ResourceManager 和ApplicatonMaster ResourceManager : 负责整个集群的资源管理 和调度 ApplicationMaster: 负责应用程序相关的事务,比如任务高度,任务监控 解决hdfs 1.x 中单点故障和内存受限问题 解决单点故障 HDFS HA : 通过主备NameNode 解决 解决内存受限问题 HDFS Federation 水平扩展,支持多个NameNode 每个NameNode 分管一部分目录 所有NameNode 共享所有DataNode 4、MapReduce On YARN : 将MapReduce 作业直接运行在YARN,而不是JobTracker 和TaskTracker 基本功能模块: YARN:负责资源管理和调度 MRAppMaster : 负责任务切分,任务调度、任务监控和容错 MapTask/ReduceTask :任务任务驱动引擎与MR1一致 每个MapReduce 作业对应一个MRAppMaster MRAppMaster 任务调度 YARN将资源分配给MRAppMaster MRAppMaster 进一步将资源分配给内部的任务 MRAppMaster 容错
hadoop 自学指南七之hadoop2.x 特性
最新推荐文章于 2021-12-21 20:28:16 发布