Join原理
Hive执行引擎会将HQL“翻译”成为MapReduce任务,如果多张表使用同一列做Join,将被“翻译”成一个MapReduce任务,否则会被“翻译”成多个MapReduce任务
例如:以下将被“翻译”成1个MapReduce任务
SELECT talble1.val,table2.val,table3.val from table1 JOIN table2 ON (table1.key=table2.key1) JOIN table3 ON(table3.key = table2.key1)
以下将被“翻译”成2个MapReduce任务
SElECT table1.val,table2.val,table3.val from table1 JOIN table2 ON(table1.key=table2.key1) JOIN table3 ON(table3.key = table2.key2);
很好理解,一般来说(map side join除外)Map过程负责分发数据,具体JOIN操作在Reduce完成,因此,如果多表基于不同的列做JOIN,则无法在一轮MapReduce任务中将所有相关数据Shuffle到同一个Reduce
对于多表JOIN,Hive会将前面的表缓存在Reduce内存中,然后后面的表会流式的进入Reduce和Reduce内存中其他的表做JOIN。例如:
SELECT table1.val,table2.val,table3.val from a JOIN b on (table1.key = table2.key1) JOIN c ON(table3.key = table2.key1)
在Reduce中,table1、table2表等待JOIN的数据会放在内存中ÿ