「Hive进阶篇」HQL底层执行过程及原理详解

最新推荐文章于 2024-04-17 10:03:01 发布

大数据阶梯之路

最新推荐文章于 2024-04-17 10:03:01 发布

阅读量1k

点赞数

文章标签： hadoop hive 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liuweimingaihyt/article/details/127252607

版权

本次来到Hive进阶系列文章第三篇，总结了hiveQL底层执行过程原理相关分享，前面分享的hive优化总结思维导图和hive优化PDF文档，有需要可关注公众号《大数据阶梯之路》找小编获取文档保存本地吧，公众号不断分享技术相关文章。话不多说，👇🏻下面就直接开讲吧！

先通过大纲提问式进行概览，我大致介绍下你能通过此篇文章学到什么：
1. hive主要有几个组件在协调工作
2. hive的底层执行架构
3. 一条hiveQL在底层是如何一步步翻译为MapReduce程序的

一、hive几大组件

ui：用户界面，我们提交hiveQL的命令行界面
driver：驱动程序，接受查询的组件
compiler：编译器，负责将hiveQL编译为MapReduce，对不同的查询块和查询表达式进行语义分析，最终借助表和元数据库查找的分区元数据来生成执行计划
metastore：元数据库，存储hive各种表和分区的元数据信息
executor engine：执行引擎，负责将compiler编译器编译好的执行计划提交到不同的平台上去

针对上图的流程，我简要概述：hive的执行入口是driver，提交的hql语句首先到driver，由driver来负责执行管理，之后查找元数据信息，再调用compiler编译器解析hql语句成物理计划返回给driver，然后把物理执行计划连同元数据发送给执行引擎执行，至此这就到了hadoop层面的MapReduce程序了。

二、hiveQL编译成MapReduce过程

这个hiveQL编译成MapReduce的过程就是在上面的COMPILER组件里完成的。编译过程主要有以下六个步骤：

词法语法解析 ->语义解析 ->生成逻辑执行计划 ->优化逻辑执行计划 ->生成物理执行计划 ->优化物理执行计划

①词法语法解析：先是由解析器解析hiveQL语法和词法，生成抽象语法树AST Tree；

②语义解析：然后遍历抽象语法树，转换为查询单元Query Block，查询单元是一条sql最基本的组成单元，查询单元包含了输入源、计算过程、输出三个部分；

③生成逻辑执行计划：遍历查询单元，生成操作树Operator Tree，操作树是由一系列操作符Opreator组成，每一个操作符完成操作后就将数据流式传递到下一个操作符进行逻辑计算；

④优化逻辑执行计划：逻辑层优化器针对逻辑执行计划做优化，比如合并多余的操作符，达到减少MapReduce Job，减少数据传输和shuffle数据量；

⑤生成物理执行计划：遍历逻辑执行计划，翻译为MapReduce任务，生成物理执行计划；

⑥优化物理执行计划：物理层优化器针对物理执行计划做优化，最终生成MR job并输出。

大数据阶梯之路

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
「Hive进阶篇」HQL底层执行过程及原理详解

HQL底层执行过程及原理详解
复制链接

扫一扫

大数据阶梯之路 CSDN认证博客专家 CSDN认证企业博客

码龄12年

13: 原创

39万+: 周排名

174万+: 总排名

2万+: 访问

: 等级

162: 积分

25: 粉丝

20: 获赞

4: 评论

132: 收藏

私信

关注

热门文章

最新评论

「数仓建设篇」数仓主题域划分
大数据阶梯之路: 我这里举例的搬家案例是根据业务系统划分的，适合小型数据仓库搭建，但像用户这类完全是可以抽象出一个主题域的。其实这是两种划分方式各有差异，没有绝对标准。 https://mp.weixin.qq.com/s/HQN3_pFJZyKkHwhqcWLP_Q
「数仓建设篇」数仓主题域划分
大数据阶梯之路: 我这里举例的搬家案例是根据业务系统划分的，适合小型数据仓库搭建，但像用户这类完全是可以抽象出一个主题域的。其实这是两种划分方式各有差异，没有绝对标准。 -- 来源公众号:大数据阶梯之路
「数仓建设篇」数仓主题域划分
CpData: 大佬，文章介绍的很清晰，仔细研读后有一个疑问：关于主题域下面的主题划分后，不同主题域会存在相同的主题，这种就会出现主题在不同主题域之间交叉，大佬对于这种场景有什么见解？（参考：搬家主题域下面的的用户主题，这个肯定在其他主题域下面）希望得到大佬的回复
「数仓建设篇」数仓主题域划分
JankinPhone: 好文章啊

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。