Hive map-side Join

最新推荐文章于 2023-06-03 16:20:50 发布

LSB19930706

最新推荐文章于 2023-06-03 16:20:50 发布

阅读量459

点赞数

分类专栏： Hive 笔记

本文链接：https://blog.csdn.net/lsb19930706/article/details/109311032

版权

Hive 同时被 2 个专栏收录

13 篇文章 0 订阅

订阅专栏

笔记

3 篇文章 0 订阅

订阅专栏

如果表join时，有一张表时小表，那么可以在最大的表通过mapper时将小标完全放倒内存中。Hive可以在map端执行连接过程，叫map-side Join。因为map可以和内存中的小标逐一匹配，从而省略掉常规连接操作所需要的的reduce过程。即使对于很小的数据集，这个优化也很明显的要快于常规的连接操作。补交减少了reduce的过程，有事还可以减少map过程的执行步骤。

在hive0.7之前的版本中可以通过指定小表来实现map join，如下

select /*+ MAPJOIN(b) */  a.id,a.name,b.addr
from person_info a join address_info b
on a.addr_id=b.id

hive0.7开始，提供了更便捷的方式来实现map join,当然也兼容手动指定小表，需要如下设置

set hive.auto.convert.join=true;

用户可以自定义小表的大小

set hive.mapjoin.smalltable.filesize=25000000   --单位是字节，该设置表示25M

需要注意的是该优化对right join和full join不支持

如果join的两张表都是桶表，并且数据是按照join on中的键来分桶，而且其中一张表的个数是另一张表的若干倍，那么满足这些条件时，Hive可以在map阶段按照分桶数据进行连接。这种情况，不需要获取到表中所有内容才去和另一张表中每个分桶连接
开启优化该优化方法：

set hive.optimize.bucketmapjoin=true;

如果所涉及的分桶表都具有相同的分桶数，而且数据是按照连接键或桶的键进行排序，那么hive可以执行一个更快的分类-合并连接（sort-merge JOIN）。开启方法如下：

set hive.input.format=org.apache.hadoop.hive.ql.io.BucketizedHiveInputFormat;
set hive.optimize.bucketmapjoin=true;
set hive.optimize.bucketmapjoin.sortemerge=true;

LSB19930706

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive map-side Join

如果表join时，有一张表时小表，那么可以在最大的表通过mapper时将小标完全放倒内存中。Hive可以在map端执行连接过程，叫map-side Join。因为map可以和内存中的小标逐一匹配，从而省略掉常规连接操作所需要的的reduce过程。即使对于很小的数据集，这个优化也很明显的要快于常规的连接操作。补交减少了reduce的过程，有事还可以减少map过程的执行步骤。在hive0.7之前的版本中可以通过指定小表来实现map join，如下select /*+ MAP...
复制链接

扫一扫

专栏目录