hive 两个没有null指定的表左关联的结果有null_Hive常见面试问题有哪些？

最新推荐文章于 2023-07-06 15:08:11 发布

weixin_39875754

最新推荐文章于 2023-07-06 15:08:11 发布

阅读量199

点赞数

文章标签： hive 两个没有null指定的表左关联的结果有null hive 将null值替换为0 hive关联查询多次执行结果不一致

1.Hive中存放是什么？

答：表，存的是和hdfs的映射关系，hive是逻辑上的数据仓库，实际操作的都是hdfs上的文件，HQL就是用sql语法来写的mr程序。

2.Hive与关系型数据库的关系？

答：没有关系，hive是数据仓库，不能和数据库一样进行实时的CURD操作。是一次写入多次读取的操作，可以看成是ETL工具。

3.Hive和hbase的区别？

共同点：

hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储

区别：

A.Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统，HBase是为了支持弥补Hadoop对实时操作的缺陷的项目。

B.想象你在操作RMDB数据库，如果是全表扫描，就用Hive+Hadoop,如果是索引访问，就用HBase+Hadoop 。

C.Hive query就是MapReduce jobs可以从5分钟到数小时不止，HBase是非常高效的，肯定比Hive高效的多。

D.Hive本身不存储和计算数据，它完全依赖于HDFS和MapReduce，Hive中的表纯逻辑。

E.hive借用hadoop的MapReduce来完成一些hive中的命令的执行

F.hbase是物理表，不是逻辑表，提供一个超大的内存hash表，搜索引擎通过它来存储索引，方便查询操作。

G.hbase是列存储。

H.hdfs作为底层存储，hdfs是存放文件的系统，而Hbase负责组织文件。

I.hive需要用到hdfs存储文件，需要用到MapReduce计算框架。

4.Hive的数据倾斜怎么解决？

2.1参数调节：

hive.map.aggr = true

Map 端部分聚合，相当于Combiner

hive.groupby.skewindata=true

有数据倾斜的时候进行负载均衡，当选项设定为 true，生成的查询计划会有两个 MR Job。第一个 MR Job 中，Map 的输出结果集合会随机分布到 Reduce 中，每个 Reduce 做部分聚合操作，并输出结果，这样处理的结果是相同的 Group By Key 有可能被分发到不同的 Reduce 中，从而达到负载均衡的目的；第二个 MR Job 再根据预处理的数据结果按照 Group By Key 分布到 Reduce 中（这个过程可以保证相同的 Group By Key 被分布到同一个 Reduce 中），最后完成最终的聚合操作。

2.2 SQL语句调节：

如何Join：

关于驱动表的选取，选用join key分布最均匀的表作为驱动表

做好列裁剪和filter操作，以达到两表做join的时候，数据量相对变小的效果。

大小表Join：

使用map join让小的维度表（1000条以下的记录条数）先进内存。在map端完成reduce.

大表Join大表：

把空值的key变成一个字符串加上随机数，把倾斜的数据分到不同的reduce上，由于null值关联不上，处理后并不影响最终结果。

count distinct大量相同特殊值

count distinct时，将值为空的情况单独处理，如果是计算count distinct，可以不用处理，直接过滤，在最后结果中加1。如果还有其他计算，需要进行group by，可以先将值为空的记录单独处理，再和其他计算结果进行union。

group by维度过小：

采用sum() group by的方式来替换count(distinct)完成计算

以上就简单为大家介绍几个有关Hive在企业面试中常见的问题，如果你对大数据技术也感兴趣，欢迎相互关注学习。

weixin_39875754

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hive 两个没有null指定的表左关联的结果有null_Hive常见面试问题有哪些？

1.Hive中存放是什么？答：表，存的是和hdfs的映射关系，hive是逻辑上的数据仓库，实际操作的都是hdfs上的文件，HQL就是用sql语法来写的mr程序。 2.Hive与关系型数据库的关系？答：没有关系，hive是数据仓库，不能和数据库一样进行实时的CURD操作。是一次写入多次读取的操作，可以看成是ETL工具。3.Hive和hbase的区别？共同点：hbase与hive都是架构在hadoo...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。