HDFS、YARN和MapReduce简介

Hadoop

Hadoop是一个Apache旗下的分布式系统基础架构。

Hadoop1由HDFS和MapReduce构成;Hadoop2框架核心设计有HDFS、MapReduce、YARN。

Hadoop2主要改进了以下四部分:YARN、NameNode HA、HDFS federation、Hadoop RPC序列化扩展性。详细解释如下:

YARN是Hadoop2中的资源管理系统,它可以使Hadoop2可以运行更多的处理框架;

NameNode HA提高了Hadoop的可靠性,当action NameNode宕机时,可立即切换到standby NameNode提供服务;

HDFS federation让多个NameNode共同管理DataNode,增加了Hadoop的集群规模;

Hadoop RPC序列化扩展性的提高,是指将数据类型独立可插拔。


HDFS

HDFS是一个分布式文件系统,具有高容错性,提供高吞吐率的数据访问,能够有效处理海量数据集。

它支持超大文件,能够检测并应对硬件故障,采用流式数据访问,并使用了简化了的一致性模型。但它不适合低延迟环境,大量小文件的读写,并且不支持多用户写入以及随机修改文件。

HDFS由NameNode和DataNode构成;NameNode保存HDFS的名字空间,任何修改操作都记录在NameNode中;DataNode把每个HDFS数据块(HDFS处理单元,默认128MB)存储在本地文件系统的单独文件中,以此来存储HDFS数据。

HDFS的读写流程如下图所示:


MapReduce

MapReduce是面向大型数据处理的并行计算模型和方法。

其工作流程如下:

MapReduce的map端输出作为输入传递给reduce端,并按键排序的过程称为shuffle,其过程如图:




Hadoop1中的MapReduce有以下四大缺点:

JobTracker同时负责资源管理和作业控制,导致其扩展性差;

MapReduce采用Master/Slave结构存在的单点故障问题会使整个集群不可用,所以它可靠性差;

MapReduce资源分配基于槽位,两种Map槽位和Reduce槽位工作时间不同却不可共享资源,降低了资源的利用率;

它无法支持多种计算框架,只能使用基于磁盘的离线计算,不支持内存计算、流式计算和迭代式计算。


YARN

YARN是Hadoop2中的通用资源管理系统,为上层应用提供统一资源管理调度,改正了Hadoop1中MapReduce的缺点,其结构如下:

YARN的组件有ResourceManager、ApplicationMaster、NodeManager和Container,其采用的仍然是Master/Slave结构(ResourceManager是Master,NodeManager是Slave)。

其工作流程图如下:


  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值