数据仓库工具hive面试题集锦

大数据技术成为互联网发展的核心要素之一,想从事大数据开发需要掌握多种核心技术:Hadoop、Hive、Storm、Spark、Scala等等。

这些技术知识点已经成为大数据工程师,进入职场时面试中必备的考点。今天,和大家分享一些数据仓库工具hive相关的面试题!

 1. Hive 的join有几种方式,怎么实现join的?

有3种join方式:

① 在 reduce 端进行 join,最常用的 join 方式。

Map端的主要工作:为来自不同表(文件)的 key/value 对打标签以区别不同来源的记录。然后用连接字段作为 key,其余部分和新加的标志作为 value,最后进行输出。

reduce 端的主要工作:在 reduce 端以连接字段作为 key 的分组已经完成,我们只需要在每一个分组当中将那些来源于不同文件的记录 (在 map 阶段已经打标志)分开,最后进行笛卡尔。

② 在 map 端进行 join,使用场景:一张表十分小、一张表很大。

在提交作业的时候先将小表文件放到该作业的 DistributedCache 中,然后从 DistributeCache 中取出该小表进行 join key / value 解释分割放到内存中(可以放大 Hash Map 等等容器中)。然后扫描大表,看大表中的每条记录的 join key /value 值是否能够在内存中找到相同 join key 的记录,如果有则直接输出结果。

③ SemiJoin,semijoin 就是左边连接是 reducejoin

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值