hive的Reduce join与Map join

说明

  • hive 中的join可分为俩类,一种是common join(也叫Reduce join或shuffle join),另一种是 map join,后者是对hive join的一个优化,利用本地的task对较小的表hash生产一个hashtable文件,然后直接和map出来另一个表进行匹配,最终完成join\
  • set hive.auto.convert.join = false 在0.7.0到0.10.0版本默认是false,表示不使用优化
  • set hive.auto.convert.join = true在0.11.0到之后的版本是ture,代表使用优化

reduce join流程图

这里写图片描述
可以看到普通的join有shuffle

map join流程图

这里写图片描述
map join 没有shuffle过程,他是对小表进行hash到hdfs 临时缓存中生成hashtable file,然后直接匹配。

查看reduce join的执行计划

  • 设置set hive.auto.convert.join = false,不使用优化

  • 执行计划

    1. explain [extended] select  e.empno, e.ename, e.deptno, d.dname from emp e join ruoze_dept d on e.deptno = d.deptno ;
    

    通过执行计划可以看出,正常的join是使用俩个map和一个reduce来完成join,因为过程中有shuffle,所以会有网络io,执行效率相对较小

查看map join的执行计划

  • 设置set hive.auto.convert.join =ture,使用优化
  • 执行计划

    1. explain [extended] select  e.empno, e.ename, e.deptno, d.dname from emp e join ruoze_dept d on e.deptno = d.deptno ;
    

    使用优化的map join过程中没有shuffle,是通过本地的一个task hash较小的表(较小的表的识别可以通过元数据信息判断)生成hashtable file文件,并保存到hdfs的临时缓存当中,然后通过与map出来的另一个表进行直接匹配,得出结果,因此过程中没有shuffle,不需要网络,所以效率相对来说较快,即为优化

本文中执行计划没有显示出来,详细的执行计划可以自己去解读,每个步骤都有很重要的含义。
来自@若泽大数据

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值