full join 同名的字段怎么输出_【每日一题】说一下Hive怎么优化?(腾讯)

本文探讨了Hive的性能优化方法,包括MapJoin优化、行列过滤、分桶与分区技术、合理设置Map和Reduce数,以及小文件合并。通过调整参数和策略,可以提高Hive查询效率并减少资源浪费。
摘要由CSDN通过智能技术生成

勾叔今日带来腾讯面试题:说一下Hive怎么优化?

遇到这个问题,怎么作答? 下面这些要点大家可以收藏下。

01. 问题分析

这个考察对Hive的深入的理解,直接说明Hive如何优化就可以。

02. 核心问题回答

a)MapJoin 

如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,

即:在Reduce阶段完成Join。容易发生数据倾斜。可以用MapJoin把小表全部加载到内存在map端进行Join,避免Reducer处理。

b)行列过滤

列处理:在SELECT中,只拿需要的列,如果有,尽量使用分区过滤,少用SELECT *。

行处理:在分区剪裁中,当使用外关联时,如果将副表的过滤条件写在Where后面,那么就会先全表关联,之后再过滤。

c)采用分桶技术

d)采用分区技术

e)合理设置Map数

  • 通常情况下,作业会通过Input的目录产生一个或者多个Map任务。

主要的决

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值