说下Hive 中join的运行原理

相关问题
Hive里面的join分哪些类型呢?Hive的join的优化一般会怎么优化?除了mapjoin还知道别的么?
Hive两个大表join的过程
给出一个sql语句,让你结合语句来说明join过程。

1 简单解释hive解析sql到mr
ok,首先Hive会根据DQL类SQL语句生成一个MapReduce作业。具体是通过Driver将SQL提交到编译器进行语法分析、解析和优化,最后生成一个MapReduce的执行计划,再根据执行计划,生成一个MapReduce作业。
2 概况join的类型
接着hive的join主要可以分为**Shuffle join和map join。**两者的区别是:Shuffle join是在reduce端完成的join,map join是在map端完成的join。

3 shuffle join
MR的Shuffle join的过程分为map、shuffle和reduce:

1.首先是map过程,会由map task 分别去读A表和B表。因为join要涉及两张表,因此要在 map 输出的时候进行标记。比如来自第一张表的输出 Value 就记录为 <1, X>,这里的 1 表示数据来自第一张表,key值为 join中on的关联条件;
2.接着是Shuffle过程,Shuffle会将相同的key分发到相同的reducer中
3.最后是Reduce过程,在reduce端完成真正的join操作。根据表的标记对 Value 数据求笛卡尔积,用第一张表的每条记录和第二张表的每条记录连接,输出就是 join 的结果。

4 map join
Hive 默认的是map join。map join的过程只有map,其中reduce阶段在map中完成:

1.首先会把小表加载到缓存中。通过启动一个mapReduce的local task,这个task会去读取小表的数据,然后生成一堆hashtablefiles文件,接着把这个文件放到Distributed catch分布式缓存;
**2.接着map task会去读取大表数据,**读取过程中直接与缓存做join,没有shuffle过程。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值