Hive内置提供的优化机制之一：MapJoin

最新推荐文章于 2024-05-10 14:54:23 发布

吃鱼的羊

最新推荐文章于 2024-05-10 14:54:23 发布

阅读量1.5k

点赞数

分类专栏： Hadoop

Hadoop 专栏收录该内容

74 篇文章 1 订阅

订阅专栏

我在用HiveQL完成第七周作业第二题（详情见http://f.dataguru.cn/thread-237102-1-1.html）时发现。HIVE仅仅用了一个Mapreduce Job就完成了任务。而我在用Java程序时却很难用一个Mapreduce Job来完成，最后用了二个JOB才完成。通过阅读有关资料才发现。这就是Hive内置提供的优化机制之一：MapJoin。在学Map-Reduce编程时没有好好学，现在再补习一下。

一，什么是MapJoin?
MapJoin顾名思义，就是在Map阶段进行表之间的连接。而不需要进入到Reduce阶段才进行连接。这样就节省了在Shuffle阶段时要进行的大量数据传输。从而起到了优化作业的作用。

二，MapJoin的原理：
通常情况下，要连接的各个表里面的数据会分布在不同的Map中进行处理。即同一个Key对应的Value可能存在不同的Map中。这样就必须等到Reduce中去连接。要使MapJoin能够顺利进行，那就必须满足这样的条件：除了一份表的数据分布在不同的Map中外，其他连接的表的数据必须在每个Map中有完整的拷贝。

三，MapJoin适用的场景：
通过上面分析你会发现，并不是所有的场景都适合用MapJoin. 它通常会用在如下的一些情景：在二个要连接的表中，有一个很大，有一个很小，这个小表可以存放在内存中而不影响性能。这样我们就把小表文件复制到每一个Map任务的本地，再让Map把文件读到内存中待用。

四，MapJoin的实现方法：

1）在Map-Reduce的驱动程序中使用静态方法DistributedCache.addCacheFile()增加要拷贝的小表文件，。JobTracker在作业启动之前会获取这个URI列表，并将相应的文件拷贝到各个TaskTracker的本地磁盘上。

2）在Map类的setup方法中使用DistributedCache.getLocalCacheFiles()方法获取文件目录，并使用标准的文件读写API读取相应的文件。

五，Hive内置提供的优化机制之一就包括MapJoin。在Hive v0.7之前，需要给出MapJoin的指示，Hive才会提供MapJoin的优化。Hive v0.7之后的版本已经不需要给出MapJoin的指示就进行优化。它是通过如下配置参数来控制的：

hive> set hive.auto.convert.join=true;

在我安装的Hive v0.12.0版本，缺省状况下MapJoin优化是打开的。也就是hive.auto.convert.join=true。

Hive还提供另外一个参数--表文件的大小作为开启和关闭MapJoin的阈值。

hive.mapjoin.smalltable.filesize=25000000

吃鱼的羊

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive内置提供的优化机制之一：MapJoin

我在用HiveQL完成第七周作业第二题（详情见http://f.dataguru.cn/thread-237102-1-1.html）时发现。HIVE仅仅用了一个Mapreduce Job就完成了任务。而我在用Java程序时却很难用一个Mapreduce Job来完成，最后用了二个JOB才完成。通过阅读有关资料才发现。这就是Hive内置提供的优化机制之一：MapJoin。在学Map-Red
复制链接

扫一扫

专栏目录