presto中split计算worker的分配调度机制分析

  1. presto的split

        在presto中,coordinator会将state切分成多个task提交到各个worker上并行执行。每个task的输入数据是一个或者多个split,split是表的表的一部分数据,比如Hive表是hdfs上边的一个文件。

        因为worker读取split数据需要读取hdfs文件,因为如果split能恰好分配到数据所在的worker节点进行读取和计算,能节省很多的网络传输消耗,有利于加速查询性能。

        presto中提供了两者的split分配调度方式供选择,一个是SimpleNodeSelector,另一个是基于网路拓扑的TopologyAwareNodeSelector,默认的调度方式为SimpleNodeSelector。

        另外presto也提供了两个优化项开关,分别是node-scheduler.optimized-local-scheduling和hive.force-local-scheduling。前者打开时候,presto尽可能地选择和split数据相同节点的,并且任务轻的worker进行调取,后者打开时候,presto会强制调取到和split数据相同节点的worker上执行,否则会报错。

       本文主要对SimpleNodeSelector和TopologyAwareNodeSelector的调度机制进行分析。

2.  SimpleNodeSelector的调度机制

       SimpleNodeSelector的调度机制只要在SimpleNodeSelector::computeAssignments中实现,其实现的逻辑如下:

3. TopologyAwareNodeSelector的调度机制

       TopologyAwareNodeSelector的调取机制主要在TopologyAwareNodeSelector::computeAssignments实现,其实现的逻辑主要是:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值