Hive架构及相关函数

最新推荐文章于 2024-05-22 01:09:26 发布

梧桐生湘云

最新推荐文章于 2024-05-22 01:09:26 发布

阅读量677

点赞数

文章标签： hive 数据库大数据

本文链接：https://blog.csdn.net/lsx20010907/article/details/126846163

版权

本文详细介绍了Hive在大数据框架中的重要性，作为基于Hadoop的数据仓库工具，它提供了类SQL查询功能。文章深入探讨了Hive的架构，包括用户接口、元数据存储、解释器、编译器、优化器和执行器。此外，还详细阐述了Hive的SQL编译成MapReduce的过程、优缺点、数据类型、表的操作、存储格式以及各种函数的使用，如UDF、UDAF、UDTF和窗口函数。

摘要由CSDN通过智能技术生成

一、简介

Hive在我们大数据框架中是一个比较重要的部分，它是基于hadoop的一个数据仓库工具，可以讲结构化的数据文件映射为一张数据库表，并提供类sql查询功能；

数据仓库：为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。

数仓特点：（1）数据仓库是面向主题的；

（2）数据仓库是集成的；

（3）数据仓库的数据是稳定的；

（4）数据仓库中的数据是随时间变化而变化的；

引用：大数据--数据仓库_爱学习的Amelia的博客-CSDN博客_数据仓库

Hive本质是将HSQL转化成Mapreduce程序；

特点

1.可扩展：Hive可以自由的扩展集群的规模，一般情况下不需要重启服务；

2.延展性：Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数；

3.容错：良好的容错性，节点出现问题SQL任可以完成执行；

Hive架构

组成：

用户接口：这里的接口就是一些我们外部用来连接或者访问hive的客户端还有就是操作hive的一些手段，包括ShellCLI、JDBC/ODBC、WebGUI。CLI就是一些shell命令；JDBC/ODBC是hive的JAVA实现，与传统数据库JDBC相似；WebGUI是通过浏览器访问Hive。

元数据存储：hive本身原始存储在derby中，不过大多数情况存储在，mysql中。hive将元数据存储在数据库中，元数据包括一些表的名字，表的列和分区及其属性（是否为外部表等），表的数据所在目录等；

解释器、编译器、优化器、执行器：完成HQL查询语句从词法、语法分析，编译、优化以及查询计划的生成；生成的查询计划存储在hdfs中，并在随后又MapReduce调用执行。

Hive 是利用hadoop中的hdfs组件存储数据，利用MapReduce查询分析数据；

Hive底层执行架构

组件：

UI：用户界面，可看做我们提交sql语句的命令行界面；

Driver：驱动程序。接收查询的组件。该组件实现了会话句柄的概念。

Compiler：编译器。负责将SQL转化为平台可执行的执行计划。对不同的查询快和查询

表达式进行语义分析，并最终借助表和从metastore查找的分区元数据来生成执行计划。

Metastore：元数据库。存储Hive中各种表和分区的所有结构信息。

Execution enging:执行引擎。负责提交compiler阶段编译好的执行计划到不同的平台上。

基本流程：

1.UI调用Driver的接口；

2.Driver为查询创建会话句柄，并将查询发送到Compiler（编译器）生成执行计划；

3.编译器从元数据存储中获取本次查询所需要的元数据，该元数据用于对查询树中的表

达式进行类型检查，以及基于查询谓词修建分区；

4.编译器生成的计划是分阶段的DAG，每个阶段要么是map/reduce作业要么是一个元数

据或者HDFS上的操作。将生成的计划发给Driver；如果是map/reduce作业，该计划包括map

operator trees 和一个reduce operater tree ，执行引擎将会把这些作业发送给MapReduce；

5. 执行引擎将这些阶段提交给适当的组件。在每个task（mapper/reducer）中,从HDFS

文件中读取与表或中间输入相关联的数据，并通过相关算子树传递这些数据。最终这些数据

铜鼓序列化器写入到一个临时HDFS文件中（如果不需要reduce阶段，则在map中操作）。临

时文件用于向计划中后面的map/reduce阶段提供数据。

6.最终的临时文件将移动到表的位置，确保不读取脏数据（文件重命名在HDFS中是原子

操作）。对于用户的查询，临时我呢间的内容由执行引擎直接从HDFS读取，然后通过Driver

发送到UI。

HIveSql编译成MapReduce过程

1.词法，语法解析：定义SQL的语法规则，完成SQL词法，词法解析，将SQL转化为抽象语法树ASTTree；

2.语义解析：遍历AST Tree ，抽象出查询的基本组成单元Query Block；

3.生成逻辑执行计划：遍历Query Block，翻译为执行操作树Operator Tree ；

4.优化逻辑执行计划：逻辑层优化器进行Operator Tree 变换，合并Operator，达到减少

MapReduce Job，减少数据传输及Shuffle 数据量；

5.生成物理执行计划：遍历Operator Tree ,翻译为MapReduce 任务；

6.优化物理执行计划：物理层优化器进行MapReduce 任务的变换，生成最终的执行计划。

Hive如何查看SQL的执行计划：explain

Hive 优缺点

优点：

1.操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手）。

2.避免了去写MapReduce，减少开发人员的学习成本。

3.Hive的执行延迟比较高，因此Hive常用于数据分析，对实时性要求不高的场合。

4.Hive优势在于处理大数据，对于处理小数据没有优势，因为Hive的执行延迟比较高；

5.Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。

缺点：

1.Hive的HQL表达能力有限；

（1）迭代式算法无法表达；

（2）数据挖掘方面不擅长，由于MApReduce数据处理流程的限制，效率更高的算

法却无法实现。

2.Hive的效率比较低；

（1）Hive自动生成的MapReduce作业，通常情况下不够智能化；

（2）Hive调优比较困难，粒度较粗。

Hive数据类型

原生数据类型

Hive数据类型	Java数据类型	长度	例子
Tinyint	byte	1byte有符号整数	20
Smalint	short	2byte有符号整数

最低0.47元/天解锁文章

梧桐生湘云

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
Hive架构及相关函数

Hive在我们大数据框架中是一个比较重要的部分，它是基于hadoop的一个数据仓库工具，可以讲结构化的数据文件映射为一张数据库表，并提供类sql查询功能；数据仓库：为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。
复制链接

扫一扫