pySpark与Spark集群交互方式

傻么老幺

于 2024-03-18 22:32:59 发布

阅读量827

点赞数 22

文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/qq_43428465/article/details/136823614

版权

Client 交互方式

1. 启动Driver程序
2. 向Master申请资源
3. Master根据要申请的资源, 返回对应资源列表
executor1 : node1 1核 1GB
executor2: node2 1核 1GB
4. 连接对应worker节点, 通知他们启动Executor,当我worker启动完成后, 需要反向注册回Driver(通知)

5. Driver开始执行Main函数:
5.1 初始化sc对象: 构建SparkContext, 基于py4j. 将python中定义的如何初始化sc对象的代码转换为java代码进行执行处理

5.2 当Driver程序构建好SC对象后, 开始将后续的所有的RDD相关的算子全部合并在一起, 根据rdd之间的依赖的关系, 形成一个DAG执行流程图 , 划分出一共有多少个阶段以及每个阶段需要运行多少个线程, 最后每个线程需要运行在那个executor上 (任务分配)

5.3 当确定每个节点中有多少个线程以及每个线程应该运行在那个executor后, 接下来将这些任务信息发送给对应executor, 让其进行执行处理

5.4 当executor接收到任务后, 根据任务信息, 开始运行处理, 当Task运行完成后, 如果需要将结果返回给Driver(比如: 执行collect()),直接通过网络返回执行, 如果不需要返回(执行:saveasTextFile()),线程直接处理, 当内部Task执行完成后, executor会通知Driver已经执行完成了

5.5 当Driver程序接收到所有的节点都运行完成后, 执行后续的非RDD的代码, 并最终将sc对象关闭, 通知Master执行完成了, Master回收资源.

Cluster交互方式

   除了前3步和上述的稍有不同以外, 剩下的内容都是一样的。
   1. 首先会先将任务信息提交到Master主节点上
   2. 当Master收到任务信息后, 首先会根据Driver的资源信息, 随机找一台worker节点用于启动Driver程序,并将任务信息交给Driver

3. 当对应worker节点收到请求后, 开启启动Driver, 启动后会和Master保持心跳机制,告知Master启动成功了, 启动后立即开始申请资源(executor)

   4. Master根据要申请的资源, 返回对应资源列表
       executor1 : node1 1核 1GB
       executor2: node3 1核 1GB
   5. 连接对应worker节点, 通知他们启动Executor,当我worker启动完成后, 需要反向注册回Driver(通知)
   6. Driver开始执行Main函数:
       6.1 初始化sc对象: 构建SparkContext, 基于py4j. 将python中定义的如何初始化sc对象的代码转换为java代码进行执行处理

6.2 当Driver程序构建好SC对象后, 开始将后续的所有的RDD相关的算子全部合并在一起, 根据rdd之间的依赖的关系, 形成一个DAG执行流程图 , 划分出一共有多少个阶段以及每个阶段需要运行多少个线程, 最后每个线程需要运行在那个executor上 (任务分配)

6.3 当确定每个节点中有多少个线程以及每个线程应该运行在那个executor后, 接下来将这些任务信息发送给对应executor, 让其进行执行处理

6.4 当executor接收到任务后, 根据任务信息, 开始运行处理, 当Task运行完成后, 如果需要将结果返回给Driver(比如: 执行collect()),直接通过网络返回执行, 如果不需要返回(执行:saveasTextFile()),线程直接处理, 当内部Task执行完成后, executor会通知Driver已经执行完成了

6.5 当Driver程序接收到所有的节点都运行完成后, 执行后续的非RDD的代码, 并最终将sc对象关闭, 通知Master执行完成了, Master回收资源。

傻么老幺

关注

22
点赞
踩
22

收藏

觉得还不错? 一键收藏
打赏
0
评论
pySpark与Spark集群交互方式

1. 启动Driver程序2. 向Master申请资源3. Master根据要申请的资源, 返回对应资源列表 executor1 : node1 1核 1GB executor2: node2 1核 1GB4. 连接对应worker节点, 通知他们启动Executor,当我worker启动完成后, 需要反向注册回Driver(通知)5. Driver开始执行Main函数: 5.1 初始化sc对象: 构建SparkContext, 基于py4j. 将python中定义的如何初始化
复制链接

扫一扫