hive 建表_大数据面试必备 | Hive数据仓工具面试题!

bebb7d8ae343f5b9d727f1b4cafac030.gif

是新朋友吗?记得先点蓝字关注我哦~

130d11f657fb94da5a7fa7452d8c4c58.gif 336b0ff9bb28cc473733b9441a023764.png

今日课程菜单

Java全栈开发 | Web前端+H5

大数据开发 | 数据分析

 人工智能+Python | 人工智能+物联网

来源:小职(z_zhizuobiao)

找我:✅ 解锁高薪工作 ✅ 免费获取干货教程

进入数据时代,大数据技术成为互联网发展的核心要素之一。与此同时大数据开发工程师的薪资也成为行业内高薪的代表。想从事大数据开发需要掌握多种核心技术:Hadoop、Hive、Storm、Spark、Scala等等。而且这些技术知识点已经成为大数据工程师进入职场时面试中必备的考点。这里主要和大家分享一下数据仓库工具hive相关的面试题!

2923ba0e2d7ab9a5fb717de31ddf15cf.png

Hive 的 join 有几种方式,怎么实现 join 的?

答:有3 种 join 方式。

▶ 1. 在 reduce 端进行 join,最常用的 join 方式


Map 端的主要工作:为来自不同表(文件)的 key/value 对打标签以区别不同来源的记录。然后用连接字段作为 key,其余部分和新加的标志作为 value,最后进行输出。


reduce 端的主要工作:在 reduce 端以连接字段作为 key 的分组已经完成,我们只需要在每一个分组当中将那些来源于不同文件的记录 (在 map 阶段已经打标志)分开,最后进行笛卡尔。

▶ 2. 在 map 端进行 join,使用场景:一张表十分小、一张表很大


在提交作业的时候先将小表文件放到该作业的 DistributedCache 中,然后从 DistributeCache 中取出该小表进行 join key / value 解释分割放到内存中(可以放大 Hash Map 等等容器中)。然后扫描大表,看大表中的每条记录的 join key /value 值是否能够在内存中找到相同 join key 的记录,如果有则直接输出结果。

▶ 3. SemiJoin,semijoin 就是左边连接是 reducejoin 的一种变种,在 map 端过滤掉一些数据,在网络传输过程中,只传输参与连接的数据,减少了 shuffle的网络传输量,其他和 reduce的思想是一样的。


实现:将小表中参与 join 的 key 单独抽取出来通过 DistributeCache 分发到相关节点,在 map 阶段扫描连接表,将 join key 不在内存 hashset 的纪录过滤掉,让参与 join 的记录通过 shuffle 传输到 reduce 端进行 join,其他和 reduce join 一样。

Hive 内部表和外部表的区别?

▶ 内部表:建表时会在 hdfs 创建一个表的存储目录,增加分区的时候,会将数据复制到此location下,删除数据的时候,将表的数据和元数据一起删除。

▶ 外部表:一般会建立分区,增加分区的时候不会将数据移到此表的 location下,删除数据的时候,只删除了表的元数据信息,表的数据不会删除。

Hive 是如何实现分区的?

建表语句:

create table tablename (id) partitioned by (dt string)

增加分区:

alter table tablenname add partition (dt = ‘2016-03-06’)

删除分区:

alter table tablename drop partition (dt = ‘2016-03-06’)

Hive 有哪些方式保存元数据,各有哪些优缺点

▶ 存储于 derby数据库,此方法只能开启一个hive客户端,不推荐使用

▶ 存储于mysql数据库中,可以多客户端连接,推荐使用

hive 如何优化?

▶ join 优化,尽量将小表放在 join 的左边,如果一个表很小可以采用 mapjoin。

▶ 排序优化,order by 一个 reduce 效率低,distirbute by +sort by 也可以实现全局排序。

▶ 使用分区,查询时可减少数据的检索,从而节省时间。

hive 中的压缩格式 RCFile、 TextFile、 SequenceFile 各有什么区别?

▶ TextFile:默认格式,数据不做压缩,磁盘开销大,数据解析开销大。

▶ SequenceFile:Hadoop API提供的一种二进制文件支持,使用方便,可分割,可压缩,支持三种压缩,NONE,RECORD,BLOCK。

▶ RCFILE:是一种行列存储相结合的方式。首先,将数据按行分块,保证同一个 record 在同一个块上,避免读一个记录读取多个block。其次,块数据列式存储,有利于数据压缩和快速的列存取。数据加载的时候性能消耗大,但具有较好的压缩比和查询响应。

hive 相对于 Oracle 来说有哪些优点?

▶ 存储,hive 存储在 hdfs 上,oracle 存储在本地文件系统。

▶ 扩展性,hive 可以扩展到数千节点,oracle 理论上只可扩展到 100 台左右。

▶ 单表存储,数据量大 hive 可以分区分桶,oracle 数据量大只能分表。

Hive 的 sort by 和 order by 的区别!

▶ order by 会对输入数据做全局排序,只有一个 reduce,数据量较大时,很慢。

▶ sort by 不是全局排序,只能保证每个 reduce 有序,不能保证全局有序,需设置mapred.reduce.tasks>1。

449802b1a457ee7c03c2140c4a53eb7f.png

面试找工作不是一朝一夕就可以完成的事情,而且失败的面试经历未必是坏事,积累面试经验也是一种进步,希望这里可以帮到你。

职坐标大数据开发课程从入门到实战项目,让你快速掌握企业所需前沿技术,助你在6个月挑战高薪入职。

我是小职,记得找我

✅ 解锁高薪工作

✅ 免费获取最新技术干货教程资源

06501b6284198e96c79576e49b4397d1.gif 6f486872ea215bf4fc35334d24b8b6dd.png

小职精选

如何顺利通过数据分析师面试?

7个数据分析面试问题点

面试常考,64个数据分析常用术语 !

常见的数据分析面试题总结(一)

9f6ebce69576aaaeb6dfc00fb43639d4.png

版权声明:“职坐标在线” 公众号所发布内容,凡未注明"原创“等字样的均来源于网络,如涉及版权问题,请联系本公众号小编进行删除,谢谢!文中部分图片来源于网络。

06501b6284198e96c79576e49b4397d1.gif

更多精彩内容“阅读原文”

转发你最帅,点赞涨薪快

06501b6284198e96c79576e49b4397d1.gif
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值