hive 中笛卡尔积的优化 (大表/小表)

最新推荐文章于 2023-08-31 15:05:15 发布

雾岛与鲸

最新推荐文章于 2023-08-31 15:05:15 发布

阅读量3.2k

点赞数

分类专栏： hive 文章标签：大数据 hive

本文链接：https://blog.csdn.net/qq_36039236/article/details/108450666

版权

hive 专栏收录该内容

64 篇文章 15 订阅

订阅专栏

当然也可以使用 limit 的办法来减少某个表参与 join 的数据量，但对于需要笛卡尔积语义的需求来说，经常是一个大表和一个小表的join操作，结果仍然很大，以至于无法用单机处理，这时Map Join才是最好的解决办法。Map Join , 顾名思义，会在Map 端完成 join 操作。这需要将Join 操作的一个表或多个表读入内存。

PS: Map Join在子查询中可能出现未知BUG。（注意限定 join key的范围）在大表和小表做笛卡尔积时，规避笛卡尔积的方法是，给Join 添加一个Join key，原理很简单，将小表扩充一列 Join key, 并将小表的条目复制数倍，join key 各不相同；将大表扩充一列 Join key 为随机数。

精髓就在于复制几倍，最后就有几个 reduce 来做，而且大表的数据是前面小表扩张 key 值范围里面随机出来的，所以复制了几倍n, 就相当于这个随机范围就有多大n, 那么相应的，大表的数据就被随机地分配了 n 份。并且最后处理所用的 reduce 数量也是 n , 而且也不会出现数据倾斜。

注意使用这个最好把默认的自动mapjoin关掉，set hive.auto.convert.join=false，另外就是最好手动设置一下reduce的数量，若复制十倍，set mapred.reduce.tasks = 10，这样比较保险，但是reduce数量也不是越大越好。

测试案例

对小表 tmp_id 扩容，产出一张表:

-- tmp_id 存放 1-100 的数字
create table tmp_id 
(
	id int comment '扩容n' 
);

create table tmp_id_arr as 
select id, split("1,2,3,4,5,6,7,8,9,10", ",") as num_arr 
from tmp_id;

create table tmp_id_result as 
select id, num_key
from tmp_id_arr 
lateral view explode(num_arr) tb_view as num_key;

对大表，加一列 1-10 的随机数，作为和小表 tmp_id_result 关联的 Join key:

create table tmp_big 
(
	id int;
	name string;	
);

create table tmp_big_result as 
select id, name, ceiling(rand()*9) as num_key 
from tmp_big;

关联sql :

set hive.auto.convert.join=false;
set mapred.reduce.tasks = 10;

create table final_result as 
select * from 
tmp_big_result a join tmp_id_result b 
on a.num_key = b.num_key;

这样，final_result 就扩容了100倍，结合本篇文章和前面的文章 join数据倾斜优化. 食用更佳。

雾岛与鲸

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
0
评论
hive 中笛卡尔积的优化 (大表/小表)

目录笛卡尔积处理测试案例笛卡尔积处理当Hive设定为严格模式（hive.mapred.mode = strict）时，不允许在HQL语句中出现笛卡尔积，这实际说明了Hive 对笛卡尔积支持较弱。因为找不到 join key, Hive只能使用一个reducer 来完成笛卡尔积。当然也可以使用 limit 的办法来减少某个表参与 join 的数据量，但对于需要笛卡尔积语义的需求来说，经常是一个大表和一个小表的join操作，结果仍然很大，以至于无法用单机处理，这时Map Join才是最好的解决办法。Map
复制链接

扫一扫