Spark Job（Spark 架构角度）笔记

最新推荐文章于 2023-08-15 10:55:29 发布

shmily‘’

最新推荐文章于 2023-08-15 10:55:29 发布

阅读量497

点赞数

文章标签： Spark 大数据

本文链接：https://blog.csdn.net/weixin_41074929/article/details/82181298

版权

spark-shell中默认情况下没有任何Job。
默认资源分配方式：在每个Worker上为当前程序分配一个ExecutorBackend进程，且默认情况下最大化的使用Cores和Memory。
在一个Executor中一次性最多能运行多少并发的Task取决于当前Executor能够使用的Cores的数量。
一个Stage中的多个任务具体分配给哪个节点执行主要取决于数据本地性。
线程并不会关心具体Task中运行什么代码，所以线程才可以被复用。
当Spark集群启动的时候，首先启动Master进程，负责整个集群资源的管理和分配并接受作业的提交，为作业分配计算资源，即每个工作节点默认情况下都会启动一个Worker Process来管理当前节点的Memory，CPU等计算资源（真正管理资源的是Master，Worker Process只是接收Master的指令并具体分配CoarseGrainedExecutorBackend进程进行资源管理），并向Master汇报Worker还能够正常工作。当用户提交作业给Master时，Master会为程序分配ID并分配计算资源，默认情况下会为当前的应用程序在每个Worker Process下分配一个CoarseGrainedExecutorBackend进程，该进程默认情况下会最大化使用当前节点的内存和CPU。
Stage中的内容一定在Executor中执行，且Stage必须从前往后执行，Spark的一个应用程序中可以因为不同的Action产生众多的Job，每个Job至少有一个Stage。
Spark内部架构图

shmily‘’

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark Job（Spark 架构角度）笔记

spark-shell中默认情况下没有任何Job。默认资源分配方式：在每个Worker上为当前程序分配一个ExecutorBackend进程，且默认情况下最大化的使用Cores和Memory。在一个Executor中一次性最多能运行多少并发的Task取决于当前Executor能够使用的Cores的数量。一个Stage中的多个任务具体分配给哪个节点执行主要取决...
复制链接

扫一扫