Hive知识点

最新推荐文章于 2022-02-17 16:54:36 发布

m0_37651941

最新推荐文章于 2022-02-17 16:54:36 发布

阅读量1k

点赞数

文章标签： hive big data 大数据

本文链接：https://blog.csdn.net/m0_37651941/article/details/120893034

版权

Hive主要由以下3个模块组成：用户接口模块，驱动模块以及元数据模块。

用户接口模块包括CLI客户端，Beeline客户端(3.0版本)、Hive网页接口(Hive Web Interface)、JDBC、ODBC、Thrift Server等，用来实现外部对Hive的访问。

其中，Thrift Server基于Thrift软件框架开发，它提供Hive的RPC通信接口。

驱动模块(Driver)包括编译器，优化器，执行器等，所采用的执行引擎可以是MapReduct、Tez、Spark等。

元数据存储模块中主要保存表模式和其他系统元数据，如表的名称，表的列及其属性，表的分区及其属性，表的属性，表中数据所在位置信息等。

Hive工作原理:

1) 用MapReduce实现连接操作

2）用MapReduce实现分组操作

SQL查询转换成MapReduce作业的过程:

1)由Hive驱动模块中的编译器-----Antlr语言识别工具，对用户输入的SQL进行词法和语法解析，将SQL语句转化为抽象语法树(Abstract Syntax Tree, AST)的形式

2）对该抽象语法树进行遍历，进一步转化成查询块(QueryBlock)。因为抽象语法树的结构仍然很复杂，不方便直接翻译为MapReduce算法程序，所以，Hive把抽象语法树进一步转化为查询块。查询块是一个最基本的SQL语法组成单元，包括输入源，计算过程和输出3个部分。

3）再对查询块进行遍历，生成操作树(OperatorTree)。其中，操作树由很多逻辑操作符组成，如TableScanOperator、SelectOperator、FilterOperator、JoinOperator、GroupByOperator和ReduceSinkOperator等。这些逻辑操作符可以在Map阶段和Reduce阶段完成某一特定操作。

4）通过Hive驱动模块中的逻辑优化器对操作树进行优化，变换操作树的形式，合并多余的操作符，从而减少MapReduce作业数量以及Shuffle阶段的数据量

5）对优化后的操作树进行遍历，根据操作树中的逻辑操作符生成需要执行的MapReduce作业

6）启动Hive驱动模块中的物理优化器，对生成的MapReduce作业进行优化，生成最终的MapReduce作业执行计划

7）最后由Hive驱动模块中的执行器，对最终的MapReduce作业进行执行输出。

Hive HA

在Hive HA中，在Hadoop集群上构建的数据仓库是由多个Hive实例进行管理的，这些Hive实例被纳入到一个资源池中，并有HAProxy提供一个统一的对外接口。客户端的查询请求首先访问HAProxy,由HAProxy对访问请求进行转发。HAProxy收到请求后，会轮询资源池里可用的Hive实例，执行逻辑可用性测试。如果某个Hive实例逻辑可用，就会把客户端的访问请求转发到该Hive实例上，如果该Hive实例逻辑不可用，就把它放入黑名单，并继续从资源池中取出下一个Hive实例进行逻辑可用性测试。

Hive语句执行顺序：

这是一条sql:

select … from … where … group by … having … order by …

执行顺序：

from … where … select … group by … having … order by …

其实总结hive的执行顺序也是总结mapreduce的执行顺序：

MR程序的执行顺序：

map阶段：

1.执行from加载，进行表的查找与加载

2.执行where过滤，进行条件过滤与筛选

3.执行select查询：进行输出项的筛选

4.执行group by分组：描述了分组后需要计算的函数

5.map端文件合并：map端本地溢出写文件的合并操作，每个map最终形成一个临时文件。然后按列映射到对应的reduceReduce阶段：

Reduce阶段：

1.group by：对map端发送过来的数据进行分组并进行计算。

2.select：最后过滤列用于输出结果

3.limit排序后进行结果输出到HDFS文件

所以通过上面的例子我们可以看到，在进行selectt之后我们会形成一张表，在这张表当中做分组排序这些操作。

m0_37651941

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive知识点

Hive主要由以下3个模块组成：用户接口模块，驱动模块以及元数据模块。用户接口模块包括CLI客户端，Beeline客户端(3.0版本)、Hive网页接口(Hive Web Interface)、JDBC、ODBC、Thrift Server等，用来实现外部对Hive的访问。其中，Thrift Server基于Thrift软件框架开发，它提供Hive的RPC通信接口。驱动模块(Driver)包括编译器，优化器，执行器等，所采用的执行引擎可以是MapReduct、Tez、Spark等。元数据存储
复制链接

扫一扫