锁屏面试题百日百刷-Hive篇(一)

最新推荐文章于 2024-08-18 20:23:34 发布

zjlala96

最新推荐文章于 2024-08-18 20:23:34 发布

阅读量91

点赞数

分类专栏：大厂面试题面试题百日百刷 Hive 文章标签： hive 大数据 hadoop

本文链接：https://blog.csdn.net/u012838765/article/details/129190616

版权

面试题百日百刷同时被 3 个专栏收录

84 篇文章 2 订阅

订阅专栏

大厂面试题

58 篇文章 0 订阅

订阅专栏

Hive

11 篇文章 0 订阅

订阅专栏

锁屏面试题百日百刷，每个工作日坚持更新面试题。锁屏面试题app、小程序现已上线，官网地址：https://www.demosoftware.cn/#/introductionPage。已收录了每日更新的面试题的所有内容，还包含特色的解锁屏幕复习面试题、每日编程题目邮件推送等功能。让你在面试中先人一步!接下来的是今日的面试题：

1.Hive表关联查询，如何解决数据倾斜的问题？

1）倾斜原因：

map输出数据按key Hash的分配到reduce中，由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。

（1）key分布不均匀;

（2）业务数据本身的特性;

（3）建表时考虑不周;

（4）某些SQL语句本身就有数据倾斜;

如何避免：对于key为空产生的数据倾斜，可以对其赋予一个随机值。

2）解决方案

（1）参数调节：

hive.map.aggr = true

hive.groupby.skewindata=true

有数据倾斜的时候进行负载均衡，当选项设定位true,生成的查询计划会有两个MR Job。第一个MR Job中，Map的输出结果集合会随机分布到Reduce中，每个Reduce做部分聚合操作，并输出结果，这样处理的结果是相同的Group By Key有可能被分发到不同的Reduce中，从而达到负载均衡的目的；第二个MR Job再根据预处理的数据结果按照Group By Key 分布到 Reduce 中（这个过程可以保证相同的 Group By Key 被分布到同一个Reduce中），

最后完成最终的聚合操作。

（2）SQL 语句调节：

① 选用join key分布最均匀的表作为驱动表。做好列裁剪和filter操作，以达到两表做join 的时候，数据量相对变小的效果。

② 大小表Join：

使用map join让小的维度表（1000 条以下的记录条数）先进内存。在map端完成reduce

③ 大表Join大表：

把空值的key变成一个字符串加上随机数，把倾斜的数据分到不同的reduce上，由于null 值关联不上，处理后并不影响最终结果。

④ count distinct大量相同特殊值:

count distinct 时，将值为空的情况单独处理，如果是计算count distinct，可以不用处理，直接过滤，在最后结果中加1。如果还有其他计算，需要进行group by，可以先将值为空的记录单独处理，再和其他计算结果进行union。

2.请谈一下Hive的特点，Hive和RDBMS有什么异同？

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析，但是Hive不支持实时查询。

Hive与关系型数据库的区别：

3.请说明Hive中 Sort By，Order By，Cluster By，Distrbute By各代表什么意思？

order by：会对输入做全局排序，因此只有一个reducer（多个reducer无法保证全局有序）。只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。

sort by：不是全局排序，其在数据进入reducer前完成排序

distribute by：按照指定的字段对数据进行划分输出到不同的reduce中。

cluster by：除了具有 distribute by 的功能外还兼具 sort by 的功能。

zjlala96

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
锁屏面试题百日百刷-Hive篇(一)

Hive表关联查询，如何解决数据倾斜的问题请谈一下Hive的特点，Hive和RDBMS有什么异同请说明Hive中 Sort By，Order By，Cluster By，Distrbute By各代表什么意思
复制链接

扫一扫

专栏目录