Hive的HQL的执行过程（怎么转换成MR、Spark等任务）

最新推荐文章于 2024-03-12 07:32:35 发布

NeverMore丶

最新推荐文章于 2024-03-12 07:32:35 发布

阅读量989

点赞数

文章标签： hive 数据仓库面试

本文链接：https://blog.csdn.net/pengcheng4451/article/details/127039975

版权

在面试时候，被问到了Hive的HQL是怎么转换成MapReduce任务的，回去查了一下资料并看了一下源码，在这里做一下整理。

编译过程概述

能大致说出编译过程，基本已经是满足面试要求了。HiveSQL ->AST(抽象语法树) -> QB(查询块) -> OperatorTree(操作树) ->优化后的操作树 ->mapreducer任务树 -> 优化后的mapreducer任务树

Antlr定义SQL的语法规则，完成SQL词法，语法解析，将SQL转化为抽象语法树AST Tree；
遍历AST Tree，抽象出查询的基本组成单元QueryBlock；
遍历QueryBlock，翻译为执行操作树OperatorTree ；
逻辑层优化器进行OperatorTree变换，合并不必要的ReduceSinkOperator，减少shuffle数据量；
遍历OperatorTree，翻译为MapReduce任务；
物理层优化器进行MapReduce任务的变换，生成最终的执行计划

源码图解

从Beeline到MR任务执行的图解，大致说明了各个类的作用（图片可以点击放大）。

参考文章：

Hive的HSQL转换为MapReduce的过程_又菜又爱写 ᥬ᭄ᥬ᭄的博客-CSDN博客

Hive3.1.2的Beeline执行过程_虎鲸不是鱼的博客-CSDN博客_beeline源码

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

NeverMore丶

关注关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Hive的HQL的执行过程（怎么转换成MR、Spark等任务）

Hive的HQL是怎么转换成MapReduce任务
复制链接

扫一扫

Hive sql编译过程

ThreeAspects的博客

02-13

763

Hive在执行sql时会以MapReduce的方式对数据进行接入和处理，主要包含以下阶段： Hive sql的执行及编译过程： Hive首先根据sql语句中的表从HDFS文件中获取数据，对数据文件进行split操作，使其可以一行一行将所需数据读入内存 Map函数将内存中的数据按照key值进行映射，形成一行一行的key-value值在实际应用中会有多台机器参与Map处理，Map完成后需要将带有...

Hive更换Spark引擎

广彐水厂

06-06

4060

一、前置准备 CentOS7、jdk1.8、hive-2.3.6、hadoop-2.7.7、spark-2.0.0-bin-hadoop2-without-hive 想要完成本期视频中所有操作，需要以下准备： Hadoop单机伪分布式-视频教程 Hadoop完全分布式集群环境搭建-视频教程 HA(高可用)-Hadoop集群环境搭建视频+图文教程 Linux下Hive的安装 DBeaverEE连接Hive-2.3.6-视频教程 HA-Spark集群环境搭建(Standalone模式)-视频教程二、简单了

参与评论您还未登录，请先登录后发表或查看评论

Hive On Spark解析SQL过程剖析

qq_30003943的博客

11-13

1917

1.Hive执行过程概览无论Hive Cli还是HiveServer2，一个HQl语句都要经过Driver进行解析和执行，粗略如下图： 2.Driver处理的流程 HQL解析(生成AST语法树)=>语法分析(得到QueryBlock)=>生成逻辑执行计划(Operator)=>逻辑优化(Logical Optimizer Operator)=>生成物理执行计划(Task Plan)=>物理优化(Task Tree)=>构建执行计划...

HiveSql转MR 源码解析

weixin_43988989的博客

12-13

169

HiveSql转MR 源码解析步骤。

Hive-源码分析一条hql的执行过程

最新发布

lu070828的博客

03-12

1569

1、用户在hive客户端输入hql2、进行中断操作，终止正在运行的mr作业3、解析用户在hive客户端输入的hql（将hql按照字符一个一个处理，遇到 ";" 就会将前面的处理成一个hql 放入列表中）4、循环执行hql列表中的每一条hql5、从sql语句中剥离注释，并去掉头尾空白符并按照 '\\s+' 分割成hql数组6、判断hql 是正常的sql（只分析这个）还是 source 、quit 、 exit 还是!

【大数据之Hive】十二、Hive-HQL查询之分组、join、排序

阿宁的博客

06-15

1633

group by 通常和聚合函数一起使用，按照一个或多个列的结果进行分组，任何对每个租执行聚合操作。用group by时，select中只能用在group by中的字段和聚合函数。

Hive 优化以及执行原理

02-24

1. **编译阶段**：HQL被解析成抽象语法树（AST），然后转化为执行计划，这个过程包括词法分析、语法分析和优化。 2. **转化阶段**：执行计划被转化为一系列的MapReduce任务，Hive会根据查询的复杂性选择合适的转换...

apache-hive-1.2.1-bin.tar.gz.zip

05-11

"Mr.zhou_Zxy.txt" 文件可能是个人笔记或教程，可能包含了用户 Zhou Zxy 在学习和使用 Hive 过程中的经验和技巧，包括如何配置 Hive，编写 HQL 示例，或者解决遇到的问题。在大数据处理场景中，Hive 主要应用于...

hive-1.1.0-cdh5.7.0.tar.gz免费下载

03-14

7. Hive-on-MR和Hive-on-Spark：Hive 1.1.0支持在MapReduce和Spark上运行，可以根据需求选择合适的计算引擎。在CDH5.7.0环境中部署和使用Hive，你需要了解以下步骤： 1. 安装和配置：解压`hive-1.1.0-cdh5.7.0....

大数据技术之Hive.zip

06-06

此外，Hive 0.13引入了Hive-on-MR的优化，允许部分MapReduce任务在本地执行，减少网络传输。 **8. 兼容性与集成** Hive可以与多种数据源集成，如HBase、Impala、Pig等。同时，Hive提供了ODBC和JDBC驱动，使得它...

apache-hive-0.14.0-bin.tar.gz

04-22

Apache Hive 是一个基于Hadoop的数据仓库工具，它允许用户通过SQL-like语言（称为HQL，Hive Query Language）对大规模数据集进行分析和查询。在0.14.0版本中，Hive提供了多种增强的功能和性能优化，使得大数据处理变...

从Hive平滑过渡到Spark SQL

m0_56525833的博客

10-24

883

从hive过渡到SparkSQL

Hive面试题：hql的执行流程

谦卑t

12-01

2738

第一步：输入一条HQL查询语句（eg. select * from tab）第二步：解析器对这条Hql语句进行语法分析。第三步：编译器对这条Hql语句生成HQL的执行计划。第四步：优化器生成最佳的Hql的执行计划。第五步：执行这条最佳Hql语句。...

一个HQL语句是如何转换成MR任务的？

石榴姐yyds

08-22

1308

1 具体核心流程图介绍 2 详情分析（1）HQL的执行形式 1）$HIVE_HOME/bin/hive 进入客户端，然后执行 HQL； 2）$HIVE_HOME/bin/hive -e “hql”； 3）$HIVE_HOME/bin/hive -f hive.sql； 4）先开启 hivesever2 服务端，然后通过 JDBC 方式连接远程提交 HQL。可以知道我们执行 HQL 主要依赖于 $HIVE_HOME/bin/hive 和 $HIVE_HOME...

Hive 体系架构

weixin_47243236的博客

12-16

6054

Hive 为C/S模式，其体系架构如下： Hive Hive 使用的数据在 HDFS 中，Hive 的 HQL 将转为 MR、Tez 或 Spark 后，在 Hadoop 集群上运行。 Hive 的三种运行模式：内嵌模式、本地模式、远程模式。内嵌模式（Local/Embedded Metastore Database（Derby））：该模式一般用来练手和测试使用，Hive 在运行时会在部署目录色生成一个 Derby 文件和一个 metastore_db 目录。本地模式（Local/Embedded M

「Hive进阶篇」HQL底层执行过程及原理详解

大数据阶梯之路的博客

10-10

1000

HQL底层执行过程及原理详解

关于Hive SQL是否走MR任务的总结

u012667450的博客

04-28

1627

关于Hive SQL是否走MR任务的总结 Hive1.X和Hive2.X的版本，默认情况下，一般都会走MR程序。除了三种情况： 1.select * from table_name #select * 的情况不会走MR 2.select column1,column2 ... from table_name #select指定字段名的情况不会走MR（where和having除外） 3.select * from table_name limit N #select * 限制输出条数不会走MR 当然，以上说

Hive笔记四之MR任务

ty4315的专栏

01-10

6495

hive中的MR任务，以及map和reduce任务数量控制

hivesql是如何转化为MR任务的？以join、group by、distinct来说明原理

攻城狮Kevin

10-10

2795

（1）hive并不是所有的查询都需要走MR hive的优化中fetch抓取，就是修改配置文件参数hive.fetch.task.conversion为more 这样全局查找、字段查找、过滤查询、limit查询，都不会走MR，直接fetch抓取，提高查询效率（其余的还是走MR） ps：该参数设置为none时，所有任务转化为MR，一般默认是more （2）hive中需要走MR的sql，通常涉及key的shuffle，比如join、group by、distinct等以下参照链接：HiveSQL转化

hive提交后如何转换成mr程序？

03-05

可以通过以下步骤将 Hive 提交的查询转换为 MapReduce 程序...需要注意的是，Hive 查询的转换过程是自动完成的，无需手动干预。同时，MapReduce 程序的具体实现细节也与 Hive 查询的逻辑有关，因此可能会有一定的差异。