spark的资源调度和任务调度

最新推荐文章于 2022-07-16 18:36:16 发布

qq_17734605

最新推荐文章于 2022-07-16 18:36:16 发布

阅读量124

点赞数

1.集群启动后，worker节点会向Master节点汇报资源情况，以便master分配任务

2.当spark提交了一个Application后，根据RDD之间的依赖关系，将Application形成一个DAG的有向无环图，

spark在Driver端创建了两个对象：

DAGScheduler和TaskScheduler

那么DAGScheduler和TaskScheduler有什么关系呢

DAGScheduler是任务调度的高层调度器，它的主要作用是将DAG根据RDD之间的依恋关系划分为一个的stage

然后将这些stage以TaskSet的形式提交给TaskScheduler

3.TaskScheduler是任务调度的底层调度器，TaskSet其实是一个集合，里面就是一个个task任务

TaskScheduler遍历了TaskSet集合，拿到每个task后发送到计算节点Executor中执行

4.task在Executor线程池中的运行情况会反馈给TaskScheduler，

当task执行失败后，由TaskScheduler重试，将task重新发给Executor去执行，默认重试3次，3次都失败了之后，那么这个

task的stage就失败了,之后由DAGScheduler进行重试，重新发送Tasket到TaskScheduler，stage默认重试4次，

如果4次都失败了，那么这个job就失败了，application就失败了，一个Task默认情况下重试3*4=12次

不过也有需要注意的：

1.ETL类型要入数据库的业务，需要关闭推测执行机制，不然会有重复的数据入库

2 如果遇到数据倾斜的情况，开启推测机制由可能导致一直会有task重新启动处理相同的逻辑，任务可能一直处于处理不完的状态

5.粒度资源申请

1.粗粒度资源申请（spark）

在Application执行之前，将所有的资源申请完毕，资源申请成功后，才会进行任务的调度，当所有的task执行完成后，才会释放这部分资源

优点：task启动快了，stage执行快，job就快

缺点：全部完成了之后才释放资源，集群的资源无法充分使用

2细粒度资源申请(mapreduce)

Application执行之气那不需要去申请资源，让每个job的task在执行前去自己申请资源，task执行完成了之后，就释放了资源

优点：集群资源可以充分利用

缺点：任务执行相对变慢

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark的资源调度和任务调度

1.集群启动后，worker节点会向Master节点汇报资源情况，以便master分配任务2.当spark提交了一个Application后，根据RDD之间的依赖关系，将Application形成一个DAG的有向无环图，spark在Driver端创建了两个对象：DAGScheduler和TaskScheduler那么DAGScheduler和TaskScheduler有什么关系呢...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。