大表与大表join数据倾斜_061 hive中的三种join与数据倾斜

最新推荐文章于 2023-04-09 21:40:24 发布

weixin_39583521

最新推荐文章于 2023-04-09 21:40:24 发布

阅读量375

点赞数

文章标签：大表与大表join数据倾斜

本文链接：https://blog.csdn.net/weixin_39583521/article/details/111744818

版权

一：hive中的三种join

1.map join

应用场景：小表join大表

一：设置mapjoin的方式：

)如果有一张表是小表，小表将自动执行map join。

默认是true。

hive.auto.convert.join

true

)判断小表

hive.mapjoin.smalltable.filesize

25000000

二：隐式执行

/*+ MAPJOIN(tb_name) */

两种方式说明：

2.reduce join

应用场景：大表join大表

但是效率不高。

3.SMB join(sort merger bucket)：hash取余

排序合并桶。

条件：A桶个数必须与B桶的个数相同，或者B桶的个数是A桶的个数的倍数

例如：

A：4

B：8

——》A的每一个桶joinB桶的两个小桶就可以了。

设置：

hive.auto.convert.sortmerge.join=true

二：数据倾斜

1.原因

指在mapreduce中某一个值数据量过多，导致reduce的负载不均衡

主要分为

join

group by

三：参考数据倾斜

1.链接

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39583521

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
大表与大表join数据倾斜_061 hive中的三种join与数据倾斜

一：hive中的三种join1.map join应用场景：小表join大表一：设置mapjoin的方式：)如果有一张表是小表，小表将自动执行map join。默认是true。hive.auto.convert.jointrue)判断小表hive.mapjoin.smalltable.filesize25000000二：隐式执行/*+ MAPJOIN(tb_name) */两种方式说明：2.redu...
复制链接

扫一扫