Hive面试题

最新推荐文章于 2024-06-20 10:30:00 发布

敲代码的彭于晏

最新推荐文章于 2024-06-20 10:30:00 发布

阅读量293

点赞数 1

分类专栏：大数据文章标签： hive big data hadoop

本文链接：https://blog.csdn.net/qq_42074949/article/details/120796177

版权

大数据专栏收录该内容

15 篇文章 1 订阅

订阅专栏

1.hive架构

2.hive如何将hql语法转换成MR执行

3.hive和传统的RDBMS数据块比较

4.Hive 中的压缩格式 RCFile、 TextFile、 SequenceFile 各有什么区别？

5.Hive中追加导入数据的4种方式是什么？请写出简要语法

13. Hive中order by，sort by，distribute by和cluster by的区别

14.如何自定义UDF，UDTF函数

1.hive架构

如图中所示，总的来说，Hive是通过给用户提供的一系列交互接口，接收到用户的指令(SQL)，使用自己的Driver，结合元数据(MetaStore)，将这些指令翻译成MapReduce，提交到Hadoop中执行，最后，将执行返回的结果输出到用户交互接口。

Hive主要由以下三个模块组成：

用户接口模块，含CLI、HWI、JDBC、Thrift Server等，用来实现对Hive的访问。CLI是Hive自带的命令行界面;HWI是Hive的一个简单网页界面;JDBC、ODBC以及Thrift Server可向用户提供进行编程的接口，其中Thrift Server是基于Thrift软件框架开发的，提供Hive的RPC通信接口。

驱动模块(Driver)，含编译器、优化器、执行器等，负责把HiveQL语句转换成一系列MR作业，所有命令和查询都会进入驱动模块，通过该模块的解析变异，对计算过程进行优化，然后按照指定的步骤执行。

元数据存储模块(Metastore)，是一个独立的关系型数据库，通常与MySQL数据库连接后创建的一个MySQL实例，也可以是Hive自带的Derby数据库实例。此模块主要保存表模式和其他系统元数据，如表的名称、表的列及其属性、表的分区及其属性、表的属性、表中数据所在位置信息等。

1）用户接口：Client

CLI（hiveshell）、JDBC/ODBC(java访问hive)、WEBUI（浏览器访问hive）

2）元数据：Metastore

元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；

默认存储在自带的derby数据库中，推荐使用MySQL存储Metastore

3）Hadoop

使用HDFS进行存储，使用MapReduce进行计算。

4）驱动器：Driver

（1）解析器（SQL Parser）：将SQL字符串转换成抽象语法树AST，这一步一般都用第三方工具库完成，比如antlr；对AST进行语法分析，比如表是否存在、字段是否存在、SQL语义是否有误。

（2）编译器（Physical Plan）：将AST编译生成逻辑执行计划。

（3）优化器（Query Optimizer）：对逻辑执行计划进行优化。

（4）执行器（Execution）：把逻辑执行计划转换成可以运行的物理计划。对于Hive来说，就是MR/Spark。

2.hive如何将hql语法转换成MR执行

Antlr定义SQL的语法规则，完成SQL词法，语法解析，将SQL转化为抽象语法树AST Tree
遍历AST Tree，抽象出查询的基本组成单元QueryBlock
遍历QueryBlock，翻译为执行操作树OperatorTree
逻辑层优化器进行OperatorTree变换，合并不必要的ReduceSinkOperator，减少shuffle数据量
遍历OperatorTree，翻译为MapReduce任务
物理层优化器进行MapReduce任务的变换，生成最终的执行计划

3.hive和传统的RDBMS数据块比较

Hive和关系数据库存储文件的系统不同，Hive使用的是Hadoop的HDFS，关系数据库则是服务器本地的文件系统。
Hive使用的计算模型是MapReduce，而关系数据库则是自己设计的计算模型。
关系数据库都是为OLTP进行设计的，而Hive则是为海量数据做数据挖掘设计的，实时性很差，实时性的区别导致Hive的应用场景和关系数据库有很大的不同。
Hive很容易扩展自己的存储能力和计算能力，这个是继承Hadoop的特性，而关系数据库在这个方面要比Hive差很多。

4.Hive 中的压缩格式 RCFile、 TextFile、 SequenceFile 各有什么区别？

TextFile：默认格式，数据不做压缩，磁盘开销大，数据解析开销大。

SequenceFile：Hadoop API提供的一种二进制文件支持，使用方便，可分割，可压缩，支持三种压缩，NONE，RECORD，BLOCK。

RCFILE：是一种行列存储相结合的方式。首先，将数据按行分块，保证同一个record在同一个块上，避免读一个记录读取多个block。其次，块数据列式存储，有利于数据压缩和快速的列存取。数据加载的时候性能消耗大，但具有较好的压缩比和查询响应。

5.Hive中追加导入数据的4种方式是什么？请写出简要语法

从本地导入：
load data local inpath '/home/st.txt' (overwrite) into table student;

从Hdfs导入：
load data inpath '/user/hive/warehouse/st.txt' (overwrite) into table student;

查询导入：
create table student_a as select * from student;(也可以具体查询某项数据)

查询结果导入：
insert （overwrite）into table student select * from student_a;

6.Hive 调优

Hive总结篇及Hive的优化_爆发的~小宇宙的博客-CSDN博客_hive优化

7.Hive Stage划分

Hive stage划分

在生成map-reduce任务时，Hive深度优先方式遍历Operator tree（操作符树），遇到第一个reduceSink操作符时，该操作符之前的操作符便划分到一个map-reduce任务的Map任务中，然后该reduceSink到下一个
reduceSink操作符之间的部分划分为map-reduce任务的Reduce任务。

一个完整的MapReduce阶段代表一个stage。当然Hive中还有非MapReduce的stage，在MapReduce为计算框架时，基本以MapReduce的stage为主，我们这里也只谈论这一stage。

由于Hive使用MapReduce计算引擎时无法直接使用不同阶段的结果。因此，每个阶段完成之后的结果都要输出到临时目录，供下一阶段读取，因此便将整个操作符图分解成不同的stage。

8.内部表与外部表

未被external修饰的是内部表（managed table），被external修饰的为外部表（external table）；
区别：

内部表数据由Hive自身管理，外部表数据由HDFS管理；
内部表数据存储的位置是hive.metastore.warehouse.dir（默认：/user/hive/warehouse），外部表数据的存储位置由自己制定；
删除内部表会直接删除元数据（metadata）及存储数据；删除外部表仅仅会删除元数据，HDFS上的文件并不会被删除；

9.分区

分区的概念
Hive的分区方式：由于Hive实际是存储在HDFS上的抽象，Hive的一个分区名对应HDFS上的一个目录名，子分区名就是子目录名，并不是一个实际字段。
分区的好处
产生背景：如果一个表中数据很多，我们查询时就很慢，耗费大量时间，如果要查询其中部分数据该怎么办呢，这是我们引入分区的概念。
Partition:分区，每张表中可以加入一个分区或者多个，方便查询，提高效率；并且HDFS上会有对应的分区目录；
语法：
Hive分区是在创建表的时候用Partitioned by 关键字定义的，但要注意，Partitioned by子句中定义的列是表中正式的列，
但是Hive下的数据文件中并不包含这些列，因为它们是目录名，真正的数据在分区目录下。
静态分区和动态分区的区别
创建表的语法都一样

静态分区：加载数据的时候要指定分区的值（key=value），比较麻烦的是每次插入数据都要指定分区的值，创建多个分区多分区一样，以逗号分隔。
动态分区：
如果用上述的静态分区，插入的时候必须首先要知道有什么分区类型，而且每个分区写一个load data，太烦人。使用动态分区可解决以上问题，其可以根据查询得到的数据动态分配到分区里。其实动态分区与静态分区区别就是不指定分区目录，由系统自己选择。

10.桶

分区表 - Hive中的表对应为HDFS上的指定目录，在查询数据时候，默认会对全表进行扫描，这样时间和性能的消耗都非常大。分区是在HDFS上为表创建子目录，数据按照分区存储在子目录中。如果查询的where子句的中包含分区条件，则直接从该分区去查找，而不是扫描整个表目录。合理的分区设计可以极大提高查询速度和性能。在Hive中可以使用PARTITIONED BY子句创建分区表。表可以包含一个或多个分区列，程序会为分区列中的每个不同值组合创建单独的数据目录。

分桶表 - 分区表是为了将文件按照分区文件夹进行粗粒度文件隔离，但是分桶表是将数据按照某个字段进行hash计算出所属的桶，然后在对桶内的数据进行排序。

11.压缩

gzip:
优点：压缩比在四种压缩方式中较高；hadoop本身支持，在应用中处理gzip格式的文件就和直接处理文本一样；有hadoop native库；大部分linux系统都自带gzip命令，使用方便。
缺点：不支持split。

lzo压缩
优点：压缩/解压速度也比较快，合理的压缩率；支持split，是hadoop中最流行的压缩格式；支持hadoop native库；需要在linux系统下自行安装lzop命令，使用方便。
缺点：压缩率比gzip要低；hadoop本身不支持，需要安装；lzo虽然支持split，但需要对lzo文件建索引，否则hadoop也是会把lzo文件看成一个普通文件（为了支持split需要建索引，需要指定inputformat为lzo格式）。

snappy压缩
优点：压缩速度快；支持hadoop native库。
缺点：不支持split；压缩比低；hadoop本身不支持，需要安装；linux系统下没有对应的命令。

bzip2压缩
优点：支持split；具有很高的压缩率，比gzip压缩率都高；hadoop本身支持，但不支持native；在linux系统下自带bzip2命令，使用方便。
缺点：压缩/解压速度慢；不支持native。

12.数据倾斜问题

Hive学习之路（十九）Hive的数据倾斜 - 扎心了，老铁 - 博客园

对照上面的表格，可以得出有三种情况可能会发生数据倾斜：

1）join

大小表join的时候，其中一个较小表的key集中，这样分发到某一个或者几个的Reduce上的数据就可能远高于平均值；

两张大表join的时候，如果有很多0值和空值，那么这些0值或者空值就会分到一个Reduce上进行处理；

join的时候，不同数据类型进行关联，发生类型转换的时候可能会产生null值，null值也会被分到一个Reduce上进行处理；

2）group by

进行分组的字段的值太少，造成Reduce的数量少，相应的每个Reduce的压力就大；

3）count distinct

count distinct的时候相同的值会分配到同一个Reduce上，如果存在特殊的值太多也会造成数据倾斜。

13. Hive中order by，sort by，distribute by和cluster by的区别

order by：对数据进行全局排序，只有一个reduce工作
sort by：每个mapreduce中进行排序，一般和distribute by使用，且distribute by写在sort by前面。当mapred.reduce.tasks=1时，效果和order by一样
distribute by：类似MR的Partition，对key进行分区，结合sort by实现分区排序
cluster by：当distribute by和sort by的字段相同时，可以使用cluster by代替，但cluster by只能是升序，不能指定排序规则

Hive中order by，sort by，distribute by，cluster by的区别_lavimer-CSDN博客

一：order by

order by会对输入做全局排序，因此只有一个Reducer(多个Reducer无法保证全局有序)，然而只有一个Reducer，会导致当输入规模较大时，消耗较长的计算时间。关于order by的详细介绍请参考这篇文章：Hive Order by操作。

二：sort by

sort by不是全局排序，其在数据进入reducer前完成排序，因此，如果用sort by进行排序，并且设置mapred.reduce.tasks>1，则sort by只会保证每个reducer的输出有序，并不保证全局有序。sort by不同于order by，它不受hive.mapred.mode属性的影响，sort by的数据只能保证在同一个reduce中的数据可以按指定字段排序。使用sort by你可以指定执行的reduce个数(通过set mapred.reduce.tasks=n来指定)，对输出的数据再执行归并排序，即可得到全部结果。

三：distribute by

distribute by是控制在map端如何拆分数据给reduce端的。hive会根据distribute by后面列，对应reduce的个数进行分发，默认是采用hash算法。sort by为每个reduce产生一个排序文件。在有些情况下，你需要控制某个特定行应该到哪个reducer，这通常是为了进行后续的聚集操作。distribute by刚好可以做这件事。因此，distribute by经常和sort by配合使用。

注：Distribute by和sort by的使用场景

1.Map输出的文件大小不均。

2.Reduce输出文件大小不均。

3.小文件过多。

4.文件超大。

四：cluster by

cluster by除了具有distribute by的功能外还兼具sort by的功能。但是排序只能是倒叙排序，不能指定排序规则为ASC或者DESC。

14.如何自定义UDF，UDTF函数

UDF函数其实就是一个简单的函数，执行过程就是在Hive转换成MapReduce程序后，执行java方法，类似于像MapReduce执行过程中加入一个插件，方便扩展。目前Hive除去一些内置的函数以外，还提供了一些内置的函数的扩展接口：

UDF：针对单行数据操作，需要继承UDF，重写evaluate方法
UDTF:操作一个数据行，产生多个数据行或者是多个列，需要用户继承GenericUDTF，重写3个方法，initialize(自定义输出的列名和类型)，process(将结果返回forward(result))，close
UDAF:操作多个数据行，产生一个数据行,主要用以聚合统计，需要继承AbstractGenericUDAFResolver

敲代码的彭于晏

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hive面试题

目录1.hive架构2.hive如何将hql语法转换成MR执行3.hive和传统的RDBMS数据块比较4.Hive中的压缩格式RCFile、 TextFile、 SequenceFile 各有什么区别？5.Hive中追加导入数据的4种方式是什么？请写出简要语法6.Hive调优7.Hive Stage划分8.内部表与外部表9.分区10.桶11.压缩12.数据倾斜问题13.Hive中order by，sort by，distribute by和...
复制链接

扫一扫

专栏目录