hive 中笛卡尔积的优化 (大表/小表)

笛卡尔积处理

当Hive设定为严格模式(hive.mapred.mode = strict)时,不允许在HQL语句中出现笛卡尔积,这实际说明了Hive 对笛卡尔积支持较弱。因为找不到 join key, Hive只能使用一个reducer 来完成笛卡尔积。

当然也可以使用 limit 的办法来减少某个表参与 join 的数据量,但对于需要笛卡尔积语义的需求来说,经常是一个大表和一个小表的join操作,结果仍然很大,以至于无法用单机处理,这时Map Join才是最好的解决办法。Map Join , 顾名思义,会在Map 端完成 join 操作。这需要将Join 操作的一个表或多个表读入内存。

PS: Map Join在子查询中可能出现未知BUG。( 注意限定 join key的范围 )在大表和小表做笛卡尔积时,规避笛卡尔积的方法是,给Join 添加一个Join key,原理很简单,将小表扩充一列 Join key, 并将小表的条目复制数倍,join key 各不相同; 将大表扩充一列 Join key 为随机数。

精髓就在于复制几倍,最后就有几个 reduce 来做,而且大表的数据是前面小表扩张 key 值范围里面随机出来的,所以复制了几倍n, 就相当于这个随机范围就有多大n, 那么相应的,大表的数据就被随机地分配了 n 份。并且最后处理所用的 reduce 数量也是 n , 而且也不会出现数据倾斜。

注意使用这个最好把默认的自动mapjoin关掉,set hive.auto.convert.join=false,另外就是最好手动设置一下reduce的数量,若复制十倍,set mapred.reduce.tasks = 10,这样比较保险,但是reduce数量也不是越大越好。

测试案例

对小表 tmp_id 扩容, 产出一张表:

-- tmp_id 存放 1-100 的数字
create table tmp_id 
(
	id int comment '扩容n' 
);

create table tmp_id_arr as 
select id, split("1,2,3,4,5,6,7,8,9,10", ",") as num_arr 
from tmp_id;

create table tmp_id_result as 
select id, num_key
from tmp_id_arr 
lateral view explode(num_arr) tb_view as num_key;

对大表,加一列 1-10 的随机数,作为和小表 tmp_id_result 关联的 Join key:

create table tmp_big 
(
	id int;
	name string;	
);

create table tmp_big_result as 
select id, name, ceiling(rand()*9) as num_key 
from tmp_big;

关联sql :

set hive.auto.convert.join=false;
set mapred.reduce.tasks = 10;

create table final_result as 
select * from 
tmp_big_result a join tmp_id_result b 
on a.num_key = b.num_key;

这样,final_result 就扩容了100倍,结合本篇文章和前面的文章 join数据倾斜优化. 食用更佳。

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

雾岛与鲸

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值