深入理解Spark：核心思想与源码分析. 2.1　初识Spark

最新推荐文章于 2020-12-30 16:11:35 发布

weixin_34099526

最新推荐文章于 2020-12-30 16:11:35 发布

阅读量101

点赞数

文章标签：大数据

原文链接：https://yq.aliyun.com/articles/82138

版权

2.1　初识Spark

2.1.1　Hadoop MRv1的局限

Hadoop1.0版本采用的是MRv1版本的MapReduce编程模型。MRv1版本的实现都封装在org.apache.hadoop.mapred包中，MRv1的Map和Reduce是通过接口实现的。MRv1包括三个部分：

运行时环境（JobTracker和TaskTracker）；

编程模型（MapReduce）；

数据处理引擎（Map任务和Reduce任务）。

MRv1存在以下不足：

可扩展性差：在运行时，JobTracker既负责资源管理又负责任务调度，当集群繁忙时，JobTracker很容易成为瓶颈，最终导致它的可扩展性问题。

可用性差：采用了单节点的Master，没有备用Master及选举操作，这导致一旦Master出现故障，整个集群将不可用。

资源利用率低：TaskTracker 使用slot等量划分本节点上的资源量。slot代表计算资源（CPU、内存等）。一个Task 获取到一个slot 后才有机会运行，Hadoop 调度器负责将各个TaskTracker 上的空闲slot分配给Task使用。一些Task并不能充分利用slot，而其他Task也无法使用这些空闲的资源。slot 分为Map slot 和Reduce slot 两种，分别供MapTask和Reduce Task使用。有时会因为作业刚刚启动等原因导致MapTask很多，而Reduce Task任务还没有调度的情况，这时Reduce slot也会被闲置。

不能支持多种MapReduce框架：无法通过可插拔方式将自身的MapReduce框架替换为其他实现，如Spark、Storm等。

MRv1的示意如图2-1所示。

Apache为了解决以上问题，对Hadoop进行升级改造，MRv2最终诞生了。MRv2重用了MRv1中的编程模型和数据处理引擎，但是运行时环境被重构了。JobTracker被拆分成了通用的资源调度平台（ResourceManager，RM）和负责各个计算框架的任务调度模型（ApplicationMaster，AM）。MRv2中MapReduce的核心不再是MapReduce框架，而是YARN。在以YARN为核心的MRv2中，MapReduce框架是可插拔的，完全可以替换为其他MapReduce实现，比如Spark、Storm等。MRv2的示意如图2-2所示。

Hadoop MRv2虽然解决了MRv1中的一些问题，但是由于对HDFS的频繁操作（包括计算结果持久化、数据备份及shuffle等）导致磁盘I/O成为系统性能的瓶颈，因此只适用于离线数据处理，而不能提供实时数据处理能力。

weixin_34099526

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深入理解Spark：核心思想与源码分析. 2.1　初识Spark

2.1　初识Spark2.1.1　Hadoop MRv1的局限Hadoop1.0版本采用的是MRv1版本的MapReduce编程模型。MRv1版本的实现都封装在org.apache.hadoop.mapred包中，MRv1的Map和Reduce是通过接口实现的。MRv1包括三个部分：运行时环境（JobTracker和TaskTracker）；编程...
复制链接

扫一扫