一文搞懂Hive MapJoin的作用以及如何使用它

MapJoin是Hive优化小表JOIN大表的方法,它避免了shuffle阶段,提升了JOIN效率。在Hive 0.11之前,需显式使用MAPJOIN提示;之后版本,系统会自动转换。可通过配置`hive.auto.convert.join`和`hive.mapjoin.smalltable.filesize`属性来控制。当遇到复杂查询不支持自动转换时,可关闭自动转换并手动指定MAPJOIN。此外,`hive.auto.convert.join.noconditionaltask`和`hive.auto.convert.join.noconditionaltask.size`属性可用于合并多个MapJoin任务。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要

MapJoin是Hive的一种优化操作,其适用于小表JOIN大表的场景,由于表的JOIN操作是在Map端且在内存进行的,所以其并不需要启动Reduce任务也就不需要经过shuffle阶段,从而能在一定程度上节省资源提高JOIN效率

使用

方法一:

在Hive0.11前,必须使用MAPJOIN来标记显示地启动该优化操作,由于其需要将小表加载进内存所以要注意小表的大小

SELECT /*+ MAPJOIN(smalltable)*/  .key,value
FROM smalltable JOIN bigtable ON smalltable.key = bigtable.key

方法二:

在Hive0.11后,Hive默认启动该优化,也就是不在需要显示的使用MAPJOIN标记,其会在必要的时候触发该优化操作将普通JOIN转换成MapJoin,可以通过以下两个属性来设置该优化的触发时机

hive.auto.convert.join

默认值为true,自动开户MAPJOIN优化

hive.mapjoin.smalltable.filesize
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值