Hive 底层与架构相关面试题解析

本文深入解析Hive的架构,包括客户端任务提交方式、Metastore元数据存储以及Hive与Hadoop的关系。此外,讨论了Hive表的属性如分区和分桶的概念与作用,以及JOIN操作的分类,如Reduce端JOIN和Map端JOIN。最后,探讨了Hive的存储格式,如TextFile、SequenceFile、RCFile、AVRO、Parquet和ORC的特性与应用场景。
摘要由CSDN通过智能技术生成

Hive 是大数据工程师的必备技能,它帮助我们解决了海量数据查询的问题,但是它保证稳定性的同时也遗留下了查询慢的问题。虽然缺点很明显,但是那么多年过去了,大数据生态圈仍然有它的一席之地,因为稳定性这个明显的优点,大家到现在为止还是喜欢用 Hive 来跑 T+1 的离线任务。

另外,大家都喜欢把常写 HiveSQL 的人戏称为“SQL BOY”,其实这是每个大数据工程师成长的必经之路,SQL 语法看似很简单,但是想要写得好其实是不容易的。看完这篇希望大家对 Hive 能有个更全面的了解。

本篇面试内容划重点:架构、JOIN、存储格式。

Hive 的架构

image.png

客户端任务提交的方式

Hive 客户端任务提交的方式主要有两种:

  • Beeline 和 JDBC 提交任务的方式是类似的,会向一个 Thrift 服务(HiverServer2)来提交 SQL 代码,然后在 HiverServer2 端进行 SQL 的解析和优化,这个过程会用到 MetaStore 中的 Hive 元数据。这个步骤是通过 Driver 驱动来做的,最后 Driver 生成的是可执
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

老蒙大数据

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值