基础概念之 Spark on Yarn

最新推荐文章于 2023-09-27 15:01:11 发布

weixin_34362790

最新推荐文章于 2023-09-27 15:01:11 发布

阅读量843

点赞数 1

文章标签：大数据开发工具运维

原文链接：http://www.cnblogs.com/xxiaolige/p/9257745.html

版权

先抛出问题：Spark on Yarn有cluster和client两种模式，它们有什么区别？用Jupyter写Spark时，只能使用client模式，为什么？

写一篇文章，搞清楚 Spark on Yarn 的运行原理，同时回答上面的问题。

首先，把Spark和Yarn当做两个独立概念来看。单看Spark，不去管它底层依赖的存储结构，本质上讲，它就是个分布式计算的程序。程序的入口是一个叫做 SparkContext 的对象，也可以抽象地称为Driver，启动了 SparkContext 后，就可以运行各种Spark方法（比如 map,filter）。运行方法时，Spark会把每次执行分解成若干个Task，分发给若干个Executor执行，Executor是执行Task的进程，执行后的结果汇总到一起，返回给 SparkContext。Spark 本质上也是一个map+reduce的过程，与Hadoop不同的是，Spark会先把数据存储到内存中，这样处理速度会比Hadoop快大约两个数量级。

这么多的Executor进程是怎么来的？

是Yarn分配的。（注：还有其他资源管理框架，比如 Moses，这里先不管它。）

总结起来就是：Spark是一套可以运行的代码，代码运行需要资源（计算、存储、网络），Yarn把集群的资源分配一部分给Spark使用。

Yarn本身的运行方式是：Yarn把集群的节点分为两类，一类是Master，运行的进程叫ResourceManager（简称RM），另一类是Worker，运行的进程叫NodeManager（简称NM），NM可以在本机内分配资源，生成若干个Container（不熟悉容器的同学可以把Container近似理解为虚拟机）。Yarn的运行过程是，RM接受外部的资源申请（可以来自Hadoop、Spark或其他进程），按照要求分配资源，然后把对应的资源分配计划通知各个NM，NM收到自己的分配计划，按计划在本地启动若干个Container。

Spark和Yarn各自介绍完毕。

Spark on Yarn就是把上述过程结合起来，Yarn在底层，Spark在上层，也就是说，我们在写Spark代码时不需要操作Yarn，只需要设置好Spark的资源参数，Yarn会按照Spark的资源参数去分配资源，然后提供给Spark使用。

Spark on Yarn 的运行过程是：SparkContext运行起来，设置资源参数，Yarn中会为每个Spark App启动一个Container，叫做App Master，由App Master把资源参数发送给RM，RM通知若干个NM，启动若干个Container，每个Container内部都运行一个Executor，对，就是Spark中的Executor，这样Spark 和 Yarn 就结合起来了。

这里给出一个Spark on Yarn的资源参数配置示例：

conf = SparkConf().setMaster('yarn-client').setAppName('test')
conf.set('spark.executor.instances',10)
conf.set('spark.executor.cores',1)
conf.set('spark.executor.memory','2g')
conf.set("spark.driver.memory", "2g")
conf.set("spark.driver.maxResultSize", "0")

Spark on Yarn的原理都清楚了，下面要解决开头提出的问题了：Spark on Yarn 的 cluster 和 client 模式有什么区别？为什么Jupyter只能用client模式？

对比cluster和client，从名字就可以看出，前者是分布式的，后者是本地化的。具体区别就在于上面的红字：App Master的作用不同。

在cluster模式中，SparkContext运行在App Master所在的Container中，也就是说，在初始化Spark程序时，我们不知道SparkContext会运行在哪个节点，由RM分配一个Container作为App Master后，SparkContext运行在这个Container中，Spark程序的运行与我们在哪个节点启动它没有关系。

相对地，在client模式中，SparkContext运行在启动SparkContext的节点上，所有与Spark有关的调度工作都在这个节点上运行（注意：不是在这个节点的Container上），App Master只在向RM申请资源时起到了作用，之后就它什么事了，除非资源需要发生变化。

到这里，我们就能明白为什么Jupyter必须使用client模式了，因为Jupyter是运行在节点上的进程，只能和本地节点的内存实现数据交互，为了能够获取到spark运行过程中的变量，Jupyter必须采用Client模式，让spark程序的变量值存储在节点的内存中。

参考资料：

https://www.cnblogs.com/tgzhu/p/5818374.html

转载于:https://www.cnblogs.com/xxiaolige/p/9257745.html

weixin_34362790

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
基础概念之 Spark on Yarn

先抛出问题：Spark on Yarn有cluster和client两种模式，它们有什么区别？用Jupyter写Spark时，只能使用client模式，为什么？写一篇文章，搞清楚 Spark on Yarn 的运行原理，同时回答上面的问题。首先，把Spark和Yarn当做两个独立概念来看。单看Spark，不去管它底层依赖的存储结构，本质上讲，它就是个分布式计算的程序。程序的入口是一个叫做...
复制链接

扫一扫