【大数据】Hive SQL执行全过程源码解析(Hive3.1)

笑起来贼好看

已于 2023-02-21 15:05:05 修改

阅读量894

点赞数

分类专栏： Hive 大数据数据结构与算法文章标签： hive sql hadoop

于 2023-01-26 17:42:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013412066/article/details/128766596

版权

大数据同时被 3 个专栏收录

71 篇文章 2 订阅

订阅专栏

数据结构与算法

19 篇文章 0 订阅

订阅专栏

12 篇文章 0 订阅

订阅专栏

Hive执行SQL的主要流程及Hive架构

Hive执行SQL的主要流程图

看着有很多阶段，实际上很简单。Hive就是把SQL通过AST解析，然后遍历若干次(进行算子替换以及优化)，最后再次遍历算子，如果为reduceSink操作符则划分出一个stage，类似Spark中通过shuffle来划分stage，生成MapReduce任务。最后将这些任务按照执行计划的顺序提交到Yarn上执行。

Hive架构图

源码解读

由于源码含有非常多的细节，暂时忽略非重要细节

执行SQL的主要入口方法为Driver.runInternal,该方法涉及了整个Hive SQL执行流程，从SQL到编译，解析，执行，收集返回结果。

首先该方法中会判断SQL是否经过编译，若未进行编译，则会调用compileInternal -> compile方法。

SQL -> compile -> genPlan

org/apache/hadoop/hive/ql/Driver.compile

对生成的AST进行分析，生成计划

AST -> Task

这部分会用到BaseSemanticAnalyzer.analyze，大致流程是先通过SemanticAnalyzerFactory.get(queryState, tree)，初始化BaseSemanticAnalyzer对象,并且确定了SQL的类型，SQL的类型以及使用了哪些算子都在org/apache/hadoop/hive/ql/parse/HiveParser.g语法文件中枚举出来了。

然后通过sem.analyze(tree, ctx)调用analyzeInternal

而 analyzeInternal是一个抽象方法，有很多种实现：

具体实现比较复杂，大概意思就是对语法树进行递归，把每个节点用switch枚举匹配，替换成Hive的算子。

Task -> QueryPlan

这部分直接实例化一个QueryPlan对象，实际上就是把上一步的结果给copy出来组成了一个新对象。

其中存放task的属性未：

  private ArrayList<Task<? extends Serializable>> rootTasks;
  private FetchTask fetchTask;

QueryPlan -> Job

前面部分把编译的流程大致梳理了一遍，现在我们看下任务的提交与执行。

Driver.execute():

launchTask 会将任务提交到Yarn，先继续往下看：

最终会调用 TaskRunner.runSequential()

最终调用task.execute()，而execute是抽象方法，有很多中类型，都有不同的实现。

参考：
https://blog.csdn.net/zyzzxycj/article/details/102861166?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.control&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.control

笑起来贼好看

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
【大数据】Hive SQL执行全过程源码解析(Hive3.1)

看着有很多阶段，实际上很简单。Hive就是把SQL通过AST解析，然后遍历若干次(进行算子替换以及优化)，最后再次遍历算子，如果为reduceSink操作符则划分出一个stage，类似Spark中通过shuffle来划分stage，生成MapReduce任务。最后将这些任务按照执行计划的顺序提交到Yarn上执行。
复制链接

扫一扫

专栏目录

笑起来贼好看 CSDN认证博客专家 CSDN认证企业博客

码龄11年

微博股份有限公司

151: 原创

2万+: 周排名

168万+: 总排名

42万+: 访问

: 等级

3717: 积分

4362: 粉丝

163: 获赞

71: 评论

390: 收藏

私信

关注

热门文章

分类专栏

Spark 16篇
云原生 10篇
Flink 2篇
Hive 12篇
Hadoop 36篇
后端 33篇
大数据 71篇
前端 7篇
人工智能 3篇
数据库运用 12篇
devops 20篇
数据结构与算法 19篇
代码生成与优化工具 1篇
服务运维部署 41篇

最新评论

【大数据】HADOOP-Yarn集群界面UI指标项详解（建议收藏哦）
Anarchy_MC: 请问Used Capacity这个百分比计算公式是什么？
【开发工具】Mac电脑彻底删除Idea(卸载)
cary516843761: 亲测好使之前下lua插件把idea下装坏了
【大数据Hadoop】HDFS-HA模式下Checkpointer机制代码分析
「已注销」: 您好，关于HDFS中的NameNode和Secondary NameNode我有一个问题，假如当前计算机需要4条edit记录去描述一个完整的文件变动行为，这意味着edit.inprogress需要跨4个单位如edit0000012-edit0000015才可存入editsLog中，如果edit.inprogress当前正在已追加两条，检查点机制开启，NameNode会新创建一个edit.inprogress存放新的edit，那么在之前inprogress中已书写完毕的两条数据会和还未书写的两条数据一并被拷贝到新的inprogress中吗？
【大数据监控】Grafana、Spark、HDFS、YARN、Hbase指标性能监控安装部署详细文档
性感HF: 大佬，spark的大盘有吗
【大数据Hadoop】HDFS3.3.1-Datanode-DataStorage的实现原理
CSDN-Ada助手: 恭喜你，获得了 2023 博客之星评选的入围资格，请看这个帖子（https://bbs.csdn.net/topics/615306381?utmsource=blogger_star_comment）。请在这里提供反馈： https://blogdev.blog.csdn.net/article/details/129986459?utmsource=blogger_star_comment。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

笑起来贼好看 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。