大数据面试题知识点分析(六)

本文主要探讨Hive的相关知识点,包括是否支持not in操作,元数据的存储方式及其优缺点,Hive的性能优化策略,权限控制的实现,以及RCFile、TextFile、SequenceFile三种压缩格式的区别。Hive的权限配置需要在hive-site.xml中启用,并能建立多个库以实现多库多表结构。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

为了保证效率和质量,每篇文章发布6个知识点,由简单及难,我们继续HIVE:


1)hive 支持 not in 吗?

不支持,可以用left join 实现此功能。

2)Hive 有哪些方式保存元数据,各有哪些优缺点?

1.存储于内存数据库derby,此方法只能开启一个hive客户端,不推荐使用。
2.存储于mysql数据库,可以多客户端连接,推荐使用。
分为本地mysql数据库,远程mysql数据库,但是本地的mysql数据用的比较多,因为本地读写速度都比较快。

3)hive 如何优化?

1.join优化,尽量将小表放在join的左边,如果一个表很小可以采用mapjoin;
2.排序优化,order by 一个reduce效率低,distirbute by +sort by 也可以实现全局排序;
3.使用分区,查询时可减少数据的检索,从而节省时间。
hive最终都会转化为mapreduce的job来运行,要想hive调优,实际上就是mapreduce调优,可以有下面几个方面的调优:解决收据倾斜问题,减少job数量,设置合理的map和reduce个数,对小文件进行合并,优化时把我整体,单个task最优不如整体最优,按照一定规则分区。

4)hive 如何权限控制?

Hive的权限需要在hive-site.xml文件中设置才会起作用,配置默认的是false。需要把hive.security.authorization.enabled设置为true,并对不同的用户设置不同的权限,例如select ,drop等的操作。

5)hive 能像关系数据库那样,建多个库吗?

可以建立多个库,多库多表都支持。

6)hive 中的压缩格式 RCFile、 TextFile、 SequenceFile 各有什么区别?

TextFile:默认格式,数据不做压缩,磁盘开销大,数据解析开销大。

SequenceFile:Hadoop API提供的一种二进制文件支持,使用方便,可分割,可压缩,支持三种压缩,NONE,RECORD,BLOCK。

RCFILE:是一种行列存储相结合的方式。首先,将数据按行分块,保证同一个record在同一个块上,避免读一个记录读取多个block。其次,块数据列式存储,有利于数据压缩和快速的列存取。数据加载的时候性能消耗大,但具有较好的压缩比和查询响应。








评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值