Hive中Join的 MR 底层原理

最新推荐文章于 2022-05-30 07:00:00 发布

鸭梨山大哎

最新推荐文章于 2022-05-30 07:00:00 发布

阅读量642

点赞数

分类专栏： hive 文章标签： hive join map join common join

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010711495/article/details/113614127

版权

hive 专栏收录该内容

114 篇文章 14 订阅

订阅专栏

Hive中的Join可分为Common Join（Reduce阶段完成join）和Map Join（Map阶段完成join）

一、 Hive Common Join

如果不指定MapJoin或者不符合MapJoin的条件，那么Hive解析器会将Join操作转换成Common Join,即：在Reduce阶段完成join.

整个过程包含Map、Shuffle、Reduce阶段。

Map阶段

读取源表的数据，Map输出时候以 Join on 条件中的列为作为key，如果Join有多个关联键，则以这些关联键的组合作为key;

Map输出的 value 为 join 之后所关心的(select或者where中需要用到的)列；同时在value中还会包含表的 Tag 信息，用于标明此value对应哪个表；

按照key进行排序;

Shuffle阶段
根据key的值进行hash,并将key/value按照hash值推送至不同的reduce中，这样确保两个表中相同的key位于同一个reduce中

Reduce阶段
根据key的值完成join操作，期间通过Tag来识别不同表中的数据。
以下面的HQL为例，图解其过程：

SELECT
a.id,
a.dept,
b.age
FROM a join b
ON (a.id = b.id);

在这里插入图片描述
看了这个图，应该知道如何使用MapReduce进行join操作了吧。

二、 Hive Map Join

MapJoin通常用于一个很小的表和一个大表进行 Join 的场景，具体小表有多小，由参数hive.mapjoin.smalltable.filesize来决定，该参数表示小表的总大小，默认值为25000000字节，即25M。

0.7版本之后，默认自动会转换Map Join，由参数 hive.auto.convert.join 来控制，默认为true.

仍然以前面的HQL来说吧，假设a表为一张大表，b为小表，并且hive.auto.convert.join=true,那么Hive在执行时候会自动转化为MapJoin。

Hive MapJoin
如图中的流程，首先是Task A，它是一个Local Task（在客户端本地执行的Task），负责扫描小表b的数据，将其转换成一个HashTable的数据结构，并写入本地的文件中，之后将该文件加载到DistributeCache中，该HashTable的数据结构可以抽象为：
在这里插入图片描述
图中红框圈出了执行Local Task的信息。

接下来是Task B，该任务是一个没有Reduce的MR，启动MapTasks扫描大表a,在Map阶段，根据 a 的每一条记录去和DistributeCache中 b 表对应的 HashTable 关联，并直接输出结果。

由于 MapJoin 没有Reduce，所以由 Map直接输出结果文件，有多少个Map Task，就有多少个结果文件。

参考

Hive中Join的 MR 底层原理_康师傅没有眼泪-CSDN博客

大表join小表，独钟爱mapjoin

鸭梨山大哎

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Hive中Join的 MR 底层原理

Hive中的Join可分为Common Join（Reduce阶段完成join）和Map Join（Map阶段完成join）一、 Hive Common Join如果不指定MapJoin或者不符合MapJoin的条件，那么Hive解析器会将Join操作转换成Common Join,即：在Reduce阶段完成join.整个过程包含Map、Shuffle、Reduce阶段。Map阶段读取源表的数据，Map输出时候以 Join on 条件中的列为key，如果Join有多个关联键，则以这些关联键的组合作为
复制链接

扫一扫

专栏目录

鸭梨山大哎 CSDN认证博客专家 CSDN认证企业博客

码龄11年

1051: 原创

1万+: 周排名

139万+: 总排名

166万+: 访问

: 等级

1万+: 积分

5816: 粉丝

847: 获赞

304: 评论

3090: 收藏

私信

关注

热门文章

分类专栏

最新评论

presto时间戳转字符串
运维搬砖户口: 简洁易懂
openresty lua集成kafka
安全的小飞飞: 你这样写不是每个请求都会创建一个producer吗
idea社区版连接mysql数据库
gg爆ohhh: 怎么删除
Hive 字符串转日期
2301_76385588: 两种都能成功，谢谢大佬！
presto自定义UDF函数
m0_46540065: 大佬可以把你的打包的maven文件发我一份吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。