经过优化的逻辑算子,被Hive转化成底层计算引擎能运行的任务,这个过程称为物理任务的生成。Hive支持MapReduce、Tez以及Spark三种计算引擎,可以将逻辑算子转换成对应三种计算引擎的物理任务。本文主要介绍Hive将逻辑算子转换成MapReduce作业的过程。
5.1 物理任务的表示
Hive将算子DAG转换成一系列具有依赖关系的任务,这些任务构成一个DAG图。Hive中使用Task对象来表示一个任务,Task记录其在Task DAG中父节点和子节点以及其他运行时状态信息,主要数据结构和方法如下:
abstract class Task<T extends Serializable> {
//任务状态变量
protected transient boolean started;
protected transient boolean initialized;
protected transient boolean isdone;
//任务描述信息
protected T work;
//是否为根任务
protected boolean rootTask;
//子任务
protected List<Task<? extends Serializable>> childTasks;
//父任务
protected List<Task<? extends Serializable>> parentTasks;
//任务执行方法
protected abstract int execute(DriverContext driverContext)
}
其中DriverContext为Task DAG执行过程中的上下文,主要记录当前正在运行的任务列表等运行的任务等信息。
work为任务的描述信息,封装了任务运行时所需的数据结构。不同任务work类型不同,如对于MapRedTask任务,其work类型为MapredWork类型。
5.2 主要Task类的实现
Task是一个抽象类,主要实现如下:
5.2.1 MapRedTask
MapRedTask表示一个mapreduce作业,用于执行MapReduce程序。其execute方法通过JobClient向hadoop提交作业执行。
1) MapredWork数据结构
MapRedTask使用MapredWork对象描述任务信息(Task的work变量), MapredWork包含MapWork和ReduceWork两类对象,分别表示map端任务信息和reduce端任务信息。
(1)MapWork数据结构
LinkedHashMap<String, ArrayList<String>>() pathToAliases
LinkedHashMap<String, PartitionDesc> pathToPartitionInfo
LinkedHashMap<String, Operator> aliasToWork
LinkedHashMap<String, PartitionDesc> aliasToPartnInfo
其中:
pathToAliases表示表分区文件路径和表别名的映射关系,由于一张表可以有多个别名,因此这里value是数组(如selecta.*,b.* from tbl a join tbl b on a.id=b.id)。在没有分区的情况下,path为整个表的路径。
pathToPartitionInfo表示表分区文件路径和分区描述信息PartitionDesc的映射关系。PartitionDesc包含表描述信息、分区名称和分区值、分区InputFormat和OutputFormat等内容。
aliasToWork表示表别名和DAG顶层算子(TS算子)的映射关系。
aliasToPartnInfo表示表别名和分区描述信息PartitionDesc的映射关系。
(2)ReduceWork数据结构
主要数据结构如下: