Apache Hadoop2.0和1.0

http://blog.csdn.net/a2011480169/article/details/53647012

http://hadoop.apache.org/

Apache Hadoop软件库是一个框架,允许使用简单的编程模型跨大型计算机对大型数据集进行分布式处理。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。

Hadoop2.0 项目包括以下模块:

Hadoop Common:用于支持其他Hadoop模块

HDFS:Haddop 分布式文件系统

Hadoop Yarn:作业调度和集群资源管理的框架

HadoopMapReduce用于并行处理大型数据集的基于YARN的系统

Hadoop1.0的HDFS结构如下图所示


Haddop1.0的HDFS是一个主从结构,即一个HDFS集群包含一个NameNode和多个DataNode,如果namenode挂掉,文件的映射关系就没有了

Hadoop1.0的Mapreduce也是一个主从结构,即是一个JobTracker对应多个TaskTracker,JobTracker的工作太多,包括负责用户提交的任务、给TaskTracker分配任务并跟踪

针对上述问题,Hadoop2.0在HDFS和MapReduce上均做了改进

Hadoop2.0引入HDFS联邦和HA机制(待补充)

Hadoop2.0Yarn

Yarn是2.0的资源管理系统


Yarn 基本上就是将Hadoop1.0中的Mapreduce的JobTracker拆分成ResourceManager和每个应用程序特有的AppMaster

ResourceManager:负责整个系统的资源管理和分配

AppMaster:负责任务的分配和监控,每个Job都有一个AppMaster



------------------------------------------------------------------------------待更------------------------------------------------------------------------------------------------------------------

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值