hive的Reduce join与Map join

最新推荐文章于 2022-03-14 18:32:23 发布

banana`

最新推荐文章于 2022-03-14 18:32:23 发布

阅读量2.8k

点赞数 1

分类专栏： Hive 文章标签： hive join

本文链接：https://blog.csdn.net/Realoyou/article/details/79234175

版权

11 篇文章 1 订阅

订阅专栏

说明

hive 中的join可分为俩类，一种是common join（也叫Reduce join或shuffle join),另一种是 map join，后者是对hive join的一个优化，利用本地的task对较小的表hash生产一个hashtable文件，然后直接和map出来另一个表进行匹配，最终完成join\
set hive.auto.convert.join = false 在0.7.0到0.10.0版本默认是false，表示不使用优化
set hive.auto.convert.join = true在0.11.0到之后的版本是ture,代表使用优化

这里写图片描述
可以看到普通的join有shuffle

这里写图片描述
map join 没有shuffle过程，他是对小表进行hash到hdfs 临时缓存中生成hashtable file,然后直接匹配。

设置set hive.auto.convert.join = false，不使用优化
执行计划
```
1. explain [extended] select  e.empno, e.ename, e.deptno, d.dname from emp e join ruoze_dept d on e.deptno = d.deptno ;
```
通过执行计划可以看出，正常的join是使用俩个map和一个reduce来完成join，因为过程中有shuffle,所以会有网络io,执行效率相对较小

设置set hive.auto.convert.join =ture，使用优化
执行计划
```
1. explain [extended] select  e.empno, e.ename, e.deptno, d.dname from emp e join ruoze_dept d on e.deptno = d.deptno ;
```
使用优化的map join过程中没有shuffle,是通过本地的一个task hash较小的表（较小的表的识别可以通过元数据信息判断）生成hashtable file文件，并保存到hdfs的临时缓存当中，然后通过与map出来的另一个表进行直接匹配，得出结果，因此过程中没有shuffle，不需要网络，所以效率相对来说较快，即为优化

本文中执行计划没有显示出来，详细的执行计划可以自己去解读，每个步骤都有很重要的含义。
来自@若泽大数据

关注