大数据开发（Hive面试真题-卷一）

最新推荐文章于 2024-08-29 14:41:03 发布

Key-Key

最新推荐文章于 2024-08-29 14:41:03 发布

阅读量912

点赞数 20

文章标签：大数据 hive 面试

本文链接：https://blog.csdn.net/key_honghao/article/details/136662161

版权

大数据开发（Hive面试真题）

1、简要描述一下Hive表与数据库表之间有哪些区别？
2、请解释一下Hive的优点和缺点。
3、如何调优Hive查询性能？
4、如何避免Hive中Join操作引起全表扫描？
5、如何在Hive里删除一条记录？
6、Hive中Sort By，Order By，Cluster By，Distribute By分别是什么意思？
7、Hive中row_number，rank和dense rank窗口函数的区别？
8、Hive中行转列、列转行的函数有哪些？
9、Hive的执行计划是什么样子？
10、Hive内部表和外部表区别？

1、简要描述一下Hive表与数据库表之间有哪些区别？

存储：Hive表通常存储再分布式文件系统中，如HDFS；数据块表存储再关系型数据库管理系统（RDBMS）中。
查询语言：Hive使用类SQL语言进行数据查询、分析和处理，而数据库表使用结构化查询语言（SQL）。
索引：数据库表经常需要在数据中创建索引以提高性能，而Hive表默认不支持索引。
数据模型：数据库表通常以规范化形式设计，而Hive更适合用来处理扁平的、临时的或者半结构化数据。

2、请解释一下Hive的优点和缺点。

Hive是一种基于Hadoop的数据仓库工具，它提供了SQL界面和查询语言来查询和分析存储在Hadoop上的大规模结构化数据。以下是Hive的优点和缺点：

优点：

简化了复杂MapReduce任务：对于熟悉SQL而不是编写MapReduce代码的用户来说，可以更容易地使用SQL语法进行大规模数据分析。
支持高度可扩展性：可以运行在一个集群上，并能够以并行方式执行查询，在海量数据情况下保持良好地性能。

缺点：

延迟较高：相对于直接使用Hadoop的原生API，Hive的查询通常具有较高的延迟。这是由于转换SQL查询语句为底层MapReduce任务所带来的额外开销。
不适合实时处理：Hive更适用于批处理任务而不是实时数据处理，因为它不支持动态数据更新和低延迟查询。
限制：在某些情况下，复杂的查询或特殊要求可能无法通过Hive来满足。

3、如何调优Hive查询性能？

数据压缩：使用压缩格式（如Snappy、LZO）压缩数据文件以节省存储空间，并减少I/O读写时间。
分区和分桶：通过在数据上进行分区和分桶操作，可以仅仅查询所需的数据子集，提高查询效率。
数据倾斜处理：当数据倾斜导致某些任务运行时间过长时，可以使用随机抽样，增加Hive连接器或预先聚合等方法来解决。
适当调整并行度：根据集群资源调整Hive任务的并行度以利用更多计算资源，提高查询性能。
使用表缓存：对于小型维度或经常使用的查询结果可以将其缓存在内存中，避免反复加载和计算。

4、如何避免Hive中Join操作引起全表扫描？

可以采用以下几种策略：

使用合适的Join算法：根据数据的特点选择合适的Join算法，例如使用Map Join、Sort-Merge Join等。
调整表的存储格式：使用支持索引和列式存储等高效查询的存储格式，如Parquet或ORC。
对Join操作进行拆分：将大表进行水平分片或者预分区（Pre-partitioned）处理，以达到局部性原则，并使用Bucketing对小表数据进行哈希划分。
合理设置Join关联条件：确保关联条件可以做到快速过滤。

5、如何在Hive里删除一条记录？

在Hive中，直接删除单条记录是不支持的，因为Hive是为大规模数据批处理设计的，而不是为单条记录的操作设计的。但是，你可以通过以下方法间接地删除一条或多条记录：
使用INSERT OVERWRITE：
1、创建一个与原表结构相同的临时表。
2、将不想删除的记录插入到这个临时表。
3、使用INSERT OVERWRITE语句将临时表的数据覆盖回原表。

使用分区：
如果你的表是分区的，并且你想删除的记录都在一个特定的分区中，那么你可以简单地删除整个分区。

6、Hive中Sort By，Order By，Cluster By，Distribute By分别是什么意思？

在Hive中，Sort By、Order By、Cluster By和Distribute By是用于对表进行排序和分区的关键字。

Sort By：Sort By用于在查询结果中对列进行排序。它会按照指定的列对查询结果进行排序，默认为升序排序，也可以通过DESC关键词进行降序排序。
Order By：Order By也用于对查询结果进行排序，但不同于Sort By，Order By会在最终的查询结果中对所有的行进行全局排序。这意味着Order By会将整个结果集加载到内存中进行排序，适用于小规模数据集。
Cluster By：Cluster By用于将表的数据按照指定的列进行分区存储。它类似于数据库中的分区表概念，可以提高查询性能。使用Cluster By时，Hive会根据指定的列值进行数据分区，并将相同的值的行存储在同一个分区中。
Distribute By：Distribute By用于将表的数据按照指定的列进行分发。它用于控制数据在不同的Reducer任务中的分布情况。Distribute By确保具有相同分发列值的行都被发送到同一个Reducer任务中，但并不保证在Reducer任务内部的排序。

7、Hive中row_number，rank和dense rank窗口函数的区别？

在Hive中，row_number、rank和dense rank都是窗口函数，用于在查询结果中对数据进行排序和分组。

row_number函数：它为每一行分配一个唯一的整数值，这个值根据窗口排序规则进行排序。即使两个行值相同，它们的row_number值也会不同。例如，如果有5行数据，排序后的结果分别为1、2、3、4、5。
rank函数：它为每一行分配一个排名值，根据窗口排序规则进行排序。如果两个行的值相同，它们的rank值也会相同，而下一个行将跳过对应数量的排名。例如，如果有5行数据，排序后的结果分别为1、2、2、4、5。
dense rank函数：它为每一行分配一个紧凑的排名值，根据窗口排序规则进行排序。即使两个行的值相同，它们的dense rank值也会不同，而下一个行将始终增加1。例如，如果有5行数据，排序后的结果分别为1、2、2、3、4。

8、Hive中行转列、列转行的函数有哪些？

行转列：

TRANSPOSE：将行数据转置为列数据。
COLLECT_SET：将行数据按照指定的列进行分组，并将每组中的某一列的值收集到一个数组中。

列转行：

EXPLODE：将一个数组或者一个Map类型的列拆分成多行，每行包含原列中的一个元素或者键值对。
STACK：将多个列按照指定的顺序进行堆叠，每个输入列生成一行输出。

9、Hive的执行计划是什么样子？

Hive的执行计划是一个逻辑查询计划，描述了Hive查询的执行步骤和顺序。它由Hive查询优化器生成，并用于指导查询的执行。

Hive执行计划通常包含以下几个关键组件：

表扫描：指定了需要扫描的表和扫描方式，包括全表扫描或者使用索引进行扫描。
过滤条件：指定了查询的过滤条件，用于减少需要扫描的数据量。
连接操作：如果查询涉及到多个表的连接操作，执行计划会指定连接的方式，例如join操作使用的连接算法（如map-join或者sort-merge join）。
聚合操作：如果查询包含聚合函数（如SUM、COUNT等），执行计划会指定如何进行聚合操作，例如使用hash聚合或者排序聚合。
排序操作：如果查询需要按照特定的排序规则输出结果，执行计划会指定如何进行排序操作，例如使用排序算法（如快速排序或者合并排序）。
数据传输：执行计划会指定数据在不同节点之间的传输方式，例如使用shuffle操作将数据进行洗牌后再进行下一步计算。

10、Hive内部表和外部表区别？

Hive内部表和外部表的区别在于数据的存储和管理方式。

内部表（Internal Table）：
内部表是Hive默认创建的表，它的数据存储在Hive的数据仓库中的默认路径下。Hive负责管理内部表的数据和元数据，包括数据的加载、删除、备份等操作。当删除内部表时，Hive会删除该表的元数据和数据。内部表适用于Hive独立管理数据的场景。
外部表（External Table）：
外部表是指在Hive中定义的表，但数据存储在Hive之外的位置，例如HDFS上的指定路径或者其它存储系统中。外部表的元数据由Hive负责管理，但数据本身由外部存储系统管理。当删除外部表时，Hive只删除元数据而不删除实际数据。外部表适用于需要与其它系统共享数据的场景，如与其它工具或框架进行数据交互。

总结：

内部表的数据由Hive管理，外部表的数据由外部存储系统管理。
删除内部表会同时删除元数据和数据，而删除外部表只删除元数据。
内部表适用于Hive独立管理数据的场景，而外部表适用于需要与其它系统共享数据的场景。

Key-Key

关注

20
点赞
踩
13

收藏

觉得还不错? 一键收藏
打赏
0
评论
大数据开发（Hive面试真题-卷一）

外部表的元数据由Hive负责管理，但数据本身由外部存储系统管理。当删除外部表时，Hive只删除元数据而不删除实际数据。外部表适用于需要与其它系统共享数据的场景，如与其它工具或框架进行数据交互。
复制链接

扫一扫