数据仓库工具hive面试题集锦

最新推荐文章于 2022-09-15 18:19:11 发布

骨灰级收藏家

最新推荐文章于 2022-09-15 18:19:11 发布

阅读量322

点赞数

分类专栏：大数据面试技术交流文章标签：数据仓库 hive hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JACK_SUJAVA/article/details/126871705

版权

大数据技术成为互联网发展的核心要素之一，想从事大数据开发需要掌握多种核心技术：Hadoop、Hive、Storm、Spark、Scala等等。

这些技术知识点已经成为大数据工程师，进入职场时面试中必备的考点。今天，和大家分享一些数据仓库工具hive相关的面试题！

1. Hive 的join有几种方式，怎么实现join的？

有3种join方式：

① 在 reduce 端进行 join，最常用的 join 方式。

Map端的主要工作：为来自不同表(文件)的 key/value 对打标签以区别不同来源的记录。然后用连接字段作为 key，其余部分和新加的标志作为 value，最后进行输出。

reduce 端的主要工作：在 reduce 端以连接字段作为 key 的分组已经完成，我们只需要在每一个分组当中将那些来源于不同文件的记录 (在 map 阶段已经打标志)分开，最后进行笛卡尔。

② 在 map 端进行 join，使用场景：一张表十分小、一张表很大。

在提交作业的时候先将小表文件放到该作业的 DistributedCache 中，然后从 DistributeCache 中取出该小表进行 join key / value 解释分割放到内存中(可以放大 Hash Map 等等容器中)。然后扫描大表，看大表中的每条记录的 join key /value 值是否能够在内存中找到相同 join key 的记录，如果有则直接输出结果。

③ SemiJoin，semijoin 就是左边连接是 reducejoin

最低0.47元/天解锁文章

骨灰级收藏家

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。