五、物理任务生成

经过优化的逻辑算子,被Hive转化成底层计算引擎能运行的任务,这个过程称为物理任务的生成。Hive支持MapReduce、Tez以及Spark三种计算引擎,可以将逻辑算子转换成对应三种计算引擎的物理任务。本文主要介绍Hive将逻辑算子转换成MapReduce作业的过程。

5.1 物理任务的表示

Hive将算子DAG转换成一系列具有依赖关系的任务,这些任务构成一个DAG图。Hive中使用Task对象来表示一个任务,Task记录其在Task DAG中父节点和子节点以及其他运行时状态信息,主要数据结构和方法如下:

abstract class Task<T extends Serializable> {
  //任务状态变量
  protected transient boolean started;
  protected transient boolean initialized;
  protected transient boolean isdone;
  //任务描述信息
  protected T work;
  //是否为根任务
  protected boolean rootTask;
  //子任务
  protected List<Task<? extends Serializable>> childTasks;
  //父任务
  protected List<Task<? extends Serializable>> parentTasks;
  //任务执行方法
  protected abstract int execute(DriverContext driverContext)
}

其中DriverContext为Task DAG执行过程中的上下文,主要记录当前正在运行的任务列表等运行的任务等信息。

work为任务的描述信息,封装了任务运行时所需的数据结构。不同任务work类型不同,如对于MapRedTask任务,其work类型为MapredWork类型。

5.2 主要Task类的实现

Task是一个抽象类,主要实现如下:

5.2.1 MapRedTask

MapRedTask表示一个mapreduce作业,用于执行MapReduce程序。其execute方法通过JobClient向hadoop提交作业执行。

1) MapredWork数据结构

MapRedTask使用MapredWork对象描述任务信息(Task的work变量), MapredWork包含MapWork和ReduceWork两类对象,分别表示map端任务信息和reduce端任务信息。

(1)MapWork数据结构

LinkedHashMap<String, ArrayList<String>>()   pathToAliases 
LinkedHashMap<String, PartitionDesc>         pathToPartitionInfo
LinkedHashMap<String, Operator>              aliasToWork 
LinkedHashMap<String, PartitionDesc>         aliasToPartnInfo 

其中:

pathToAliases表示表分区文件路径和表别名的映射关系,由于一张表可以有多个别名,因此这里value是数组(如selecta.*,b.* from tbl a join tbl b on a.id=b.id)。在没有分区的情况下,path为整个表的路径。

pathToPartitionInfo表示表分区文件路径和分区描述信息PartitionDesc的映射关系。PartitionDesc包含表描述信息、分区名称和分区值、分区InputFormat和OutputFormat等内容。

aliasToWork表示表别名和DAG顶层算子(TS算子)的映射关系。

aliasToPartnInfo表示表别名和分区描述信息PartitionDesc的映射关系。

(2)ReduceWork数据结构

主要数据结构如下:

  • 4
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值