云架构师的进阶之路（十）

最新推荐文章于 2020-06-05 01:52:49 发布

发飙的兔子哥

最新推荐文章于 2020-06-05 01:52:49 发布

阅读量192

点赞数

分类专栏：微服务云架构

原文链接：https://www.cnblogs.com/popsuper1982/p/9875278.html

版权

微服务同时被 2 个专栏收录

13 篇文章 0 订阅

订阅专栏

12 篇文章 7 订阅

订阅专栏

基于Hadoop和Spark了解大数据平台

对于数据架构的部分，其实经历了三个过程，分别是Hadoop Map-Reduce 1.0，基于Yarn的Map-Reduce 2.0, 还有Spark。

如下图是Map-Reduce 1.0的过程。

Map-Reduce的过程将一个大任务，split称为多个Map Task，分散到多台机器并行处理，将处理的结果保存到本地，第二个阶段，Reduce Task将中间结果拷贝过来，将结果集中处理，取得最终结果。

在Map-Reduce 1.0的时候，跑任务的方式只有这一种，为了应对复杂的场景，将任务的调度和资源的调度分成两层。其中资源的调用由Yarn进行，Yarn不管是Map还是Reduce，只要向他请求，他就找到空闲的资源分配给他。

每个任务启动的时候，专门启动一个Application Master，管理任务的调度，他是知道Map和Reduce的。这就是Map-Reduce 2.0如下图。

这里Yarn相当于外包公司的老板，所有的员工都是worker，都是他的资源，外包公司的老板是不清楚接的每一个项目的。

Application Master相当于接的每个项目的项目经理，他是知道项目的具体情况的，他在执行项目的时候，如果需要员工干活，需要向外包公司老板申请。

Yarn是个通用的调度平台，能够跑Map-Reduce 2，就能跑Spark。

Spark也是创建Spark自己的Application Master，用于调度任务。

Spark之所以比较快，是因为前期规划做的好，不是像Map-Reduce一样，每一次分配任务和聚合任务都要写一次硬盘，而是将任务分成多个阶段，将所有在一个Map都做了的合成一个阶段，这样中间不用落盘，但是到了需要合并的地方，还是需要落盘的。

对于Hadoop和Spark的基本原理，参考下面的文章。

通俗说基于Yarn的Map-Reduce过程

真正写Map-Reduce程序的时候，有很多的方法论，这里有几个总结，供您参考。

大数据方法论之优化Map-Reduce过程

大数据方法论之网页消重的Map-Reduce算法

大数据方法论之PageRank的Map-Reduce计算

大数据方法论之Nutch基于Map-Reduce的爬取方法

发飙的兔子哥

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
云架构师的进阶之路（十）

基于Hadoop和Spark了解大数据平台对于数据架构的部分，其实经历了三个过程，分别是Hadoop Map-Reduce 1.0，基于Yarn的Map-Reduce 2.0, 还有Spark。如下图是Map-Reduce 1.0的过程。Map-Reduce的过程将一个大任务，split称为多个Map Task，分散到多台机器并行处理，将处理的结果保存到本地，第二个阶段，Reduc...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。