Apache Hadoop 2 简介
原文: http://hadoop.apache.org/docs/r2.0.5-alpha/
Hadoop2.0.5在之前的稳定发行版(hadoop-1.x)上有一些明显的改进。
下面将简要的说明在HDFS和MapReduce的改进。
- HDFS Federration
为了能对name service进行水平的扩展,federation使用了数个独立的Namenodes/Namespaces。这些Namenodes是联合起来的,意思就是,这些nomenodes能独立的运行并且不需要相互协调。datanodes被namenodes用来作为块的公共存储区。每个datanodes在每个namenode上都会进行注册,datanodes将周期性的给namenodes发送心跳检测、块报告和一些操作命令。
更多详细的介绍可以查看HDFS Federration文档。
- YARN(下一代mapreduce,又叫MRv2)
新的架构引进了hadoop-0.23,把Jobtracker划分成了两个主要的功能:资源管理和生命周期管理两个独立的部分。
新的资源管理器将在全局为应用分配计算资源,每个应用的应用管理器管理着应用的调度和协调。
一个应用要么是一个经典的mapreduce job要么是一个DAG job。
资源管理器和每台机器上的节点管理后台程序在机器上管理着用户的进程。
每一个应用的应用管理器,用来同资源管理器协调资源,并且同节点管理器协一起执行和监视task。
更多详细介绍查看YARN文档。