五、物理任务生成

最新推荐文章于 2023-02-27 10:45:28 发布

jiayuanv_127

最新推荐文章于 2023-02-27 10:45:28 发布

阅读量3.3k

点赞数 4

分类专栏： hive 文章标签： hadoop hive 大数据

本文链接：https://blog.csdn.net/jiayuanv_127/article/details/50936964

版权

经过优化的逻辑算子，被Hive转化成底层计算引擎能运行的任务，这个过程称为物理任务的生成。Hive支持MapReduce、Tez以及Spark三种计算引擎，可以将逻辑算子转换成对应三种计算引擎的物理任务。本文主要介绍Hive将逻辑算子转换成MapReduce作业的过程。

5.1 物理任务的表示

Hive将算子DAG转换成一系列具有依赖关系的任务，这些任务构成一个DAG图。Hive中使用Task对象来表示一个任务，Task记录其在Task DAG中父节点和子节点以及其他运行时状态信息，主要数据结构和方法如下：

abstract class Task<T extends Serializable> {
  //任务状态变量
  protected transient boolean started;
  protected transient boolean initialized;
  protected transient boolean isdone;
  //任务描述信息
  protected T work;
  //是否为根任务
  protected boolean rootTask;
  //子任务
  protected List<Task<? extends Serializable>> childTasks;
  //父任务
  protected List<Task<? extends Serializable>> parentTasks;
  //任务执行方法
  protected abstract int execute(DriverContext driverContext)
}

其中DriverContext为Task DAG执行过程中的上下文，主要记录当前正在运行的任务列表等运行的任务等信息。

work为任务的描述信息，封装了任务运行时所需的数据结构。不同任务work类型不同，如对于MapRedTask任务，其work类型为MapredWork类型。

5.2 主要Task类的实现

Task是一个抽象类，主要实现如下：

5.2.1 MapRedTask

MapRedTask表示一个mapreduce作业，用于执行MapReduce程序。其execute方法通过JobClient向hadoop提交作业执行。

1） MapredWork数据结构

MapRedTask使用MapredWork对象描述任务信息(Task的work变量), MapredWork包含MapWork和ReduceWork两类对象，分别表示map端任务信息和reduce端任务信息。

（1）MapWork数据结构

LinkedHashMap<String, ArrayList<String>>()   pathToAliases 
LinkedHashMap<String, PartitionDesc>         pathToPartitionInfo
LinkedHashMap<String, Operator>              aliasToWork 
LinkedHashMap<String, PartitionDesc>         aliasToPartnInfo

其中:

pathToAliases表示表分区文件路径和表别名的映射关系，由于一张表可以有多个别名，因此这里value是数组(如selecta.*,b.* from tbl a join tbl b on a.id=b.id)。在没有分区的情况下，path为整个表的路径。

pathToPartitionInfo表示表分区文件路径和分区描述信息PartitionDesc的映射关系。PartitionDesc包含表描述信息、分区名称和分区值、分区InputFormat和OutputFormat等内容。

aliasToWork表示表别名和DAG顶层算子(TS算子)的映射关系。

aliasToPartnInfo表示表别名和分区描述信息PartitionDesc的映射关系。

（2）ReduceWork数据结构

主要数据结构如下：

最低0.47元/天解锁文章

jiayuanv_127

关注

4
点赞
踩
31

收藏

觉得还不错? 一键收藏
4
评论
五、物理任务生成

经过优化的逻辑算子，被Hive转化成底层计算引擎能运行的任务，这个过程称为物理任务的生成。Hive支持MapReduce、Tez以及Spark三种计算引擎，可以将逻辑算子转换成对应三种计算引擎的物理任务。本文主要介绍Hive将逻辑算子转换成MapReduce作业的过程。5.1 物理任务的表示Hive将算子DAG转换成一系列具有依赖关系的任务，这些任务构成一个DAG图。Hive中使用Task
复制链接

扫一扫