spark的资源调度和任务调度

1.集群启动后,worker节点会向Master节点汇报资源情况,以便master分配任务

2.当spark提交了一个Application后,根据RDD之间的依赖关系,将Application形成一个DAG的有向无环图,

spark在Driver端创建了两个对象:

DAGScheduler和TaskScheduler

那么DAGScheduler和TaskScheduler有什么关系呢

DAGScheduler是任务调度的高层调度器,它的主要作用是将DAG根据RDD之间的依恋关系划分为一个的stage

然后将这些stage以TaskSet的形式提交给TaskScheduler

3.TaskScheduler是任务调度的底层调度器,TaskSet其实是一个集合,里面就是一个个task任务

TaskScheduler遍历了TaskSet集合,拿到每个task后发送到计算节点Executor中执行

4.task在Executor线程池中的运行情况会反馈给TaskScheduler,

当task执行失败后,由TaskScheduler重试,将task重新发给Executor去执行,默认重试3次,3次都失败了之后,那么这个

task的stage就失败了,之后由DAGScheduler进行重试,重新发送Tasket到TaskScheduler,stage默认重试4次,

如果4次都失败了,那么这个job就失败了,application就失败了,一个Task默认情况下重试3*4=12次

不过也有需要注意的:

 1.ETL类型要入数据库的业务,需要关闭推测执行机制,不然会有重复的数据入库

 2 如果遇到数据倾斜的情况,开启推测机制由可能导致一直会有task重新启动处理相同的逻辑,任务可能一直处于处理不完的状态

 

5.粒度资源申请

 1.粗粒度资源申请(spark)

    在Application执行之前,将所有的资源申请完毕,资源申请成功后,才会进行任务的调度,当所有的task执行完成后,才会释放这部分资源

  优点:task启动快了,stage执行快,job就快

  缺点:全部完成了之后才释放资源,集群的资源无法充分使用

 2细粒度资源申请(mapreduce)

     Application执行之气那不需要去申请资源,让每个job的task在执行前去自己申请资源,task执行完成了之后,就释放了资源

   优点:集群资源可以充分利用

  缺点:任务执行相对变慢

   

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值