大数据面试题_Hive篇

Jerry Hong

已于 2022-07-26 21:19:02 修改

阅读量625

点赞数

分类专栏：即席查询 Hive 大数据面试文章标签： hive 大数据 hadoop

于 2022-07-26 15:24:09 首次发布

本文链接：https://blog.csdn.net/weixin_42570840/article/details/125991723

版权

大数据面试题，Hive篇

摘要由CSDN通过智能技术生成

一、大数据面试题_Hive篇

未被 external 修饰的是内部表（managed table），被 external 修饰的为外部表（external table）

区别：

内部表数据由 Hive 自身管理，外部表数据由 HDFS 管理；
内部表数据存储的位置是 hive.metastore.warehouse.dir（默认： /user/hive/warehouse），外部表数据的存储位置由自己制定
（如果没有 LOCATION， Hive将在HDFS上的/user/hive/warehouse文件夹下以外部表的表名创建一个文件夹，并将属于这个表的数据存放在这里）；
删除内部表会直接删除元数据（metadata）及存储数据；删除外部表仅仅会删除元数据，HDFS 上的文件并不会被删除；

Hive 支持索引，但是 Hive 的索引与关系型数据库中的索引并不相同，比如，Hive 不支持主键或者外键。
Hive 索引可以建立在表中的某些列上，以提升一些操作的效率，例如减少 MapReduce 任务中需要读取的数据块的数量。
在可以预见到分区数据非常庞大的情况下，索引常常是优于分区的。
虽然 Hive 并不像事物数据库那样针对个别的行来执行查询、更新、删除等操作。它更多的用在多任务节点的场景下，快速地全表扫描大规模数据。但是在某些场景下，建立索引还是可以提高 Hive 表指定列的查询速度。（虽然效果差强人意）

索引适用的场景
适用于不更新的静态字段。以免总是重建索引数据。每次建立、更新数据后，都要重建索引以构建索引表。
Hive 索引的机制如下：
hive 在指定列上建立索引，会产生一张索引表（Hive 的一张物理表），里面的字段包括，索引列的值、该值对应的 HDFS 文件路径、该值在文件中的偏移量; v0.8 后引入 bitmap 索引处理器，这个处理器适用于排重后，值较少的列（例如，某字段的取值只可能是几个枚举值）因为索引是用空间换时间，索引列的取值过多会导致建立 bitmap 索引表过大。

但是，很少遇到 hive 用索引的。说明还是有缺陷 or 不合适的地方的。

order by 会对输入做全局排序，因此只有一个 reducer（多个 reducer 无法保证全局有序）只有一个 reducer，会导致当输入规模较大时，需要较长的计算时间。
sort by 不是全局排序，其在数据进入 reducer 前完成排序. 因此，如果用 sort by 进行排序，并且设置 mapred.reduce.tasks>1，则 sort by 只保证每个 reducer 的输出有序，不保证全局有序。

hive 处理 json 数据总体来说有两个方向的路走

将 json 以字符串的方式整个入 Hive 表，然后通过使用 UDF 函数解析已经导入到 hive 中的数据，比如使用 LATERAL VIEW json_tuple 的方法，获取所需要的列名。
在导入之前将 json 拆成各个字段，导入Hive 表的数据是已经解析过得。这将需要使用第三方的 SerDe。