SMB Join（Sort Merge Bucket Join）

最新推荐文章于 2024-10-13 15:29:56 发布

飞Link

最新推荐文章于 2024-10-13 15:29:56 发布

阅读量3.8k

点赞数 3

分类专栏： Water 文章标签： hive hadoop 数据仓库

本文链接：https://blog.csdn.net/feizuiku0116/article/details/121113537

版权

一、作用

大表对小表应该使用MapJoin来进行优化，但是如果是大表对大表，如果进行shuffle，那就非常可怕，第一个慢不用说，第二个容易出异常，此时就可以使用SMB Join来提高性能。SMB Join基于bucket-mapjoin的有序 bucket，可实现在map端完成join操作，可以有效地减少或避免shuffle的数据量。SMB join的条件和Map join类似但又不同。

二、条件

bucket mapjoin	SMB join
set hive.optimize.bucketmapjoin = true;	set hive.optimize.bucketmapjoin = true;set hive.auto.convert.sortmerge.join=true;set hive.optimize.bucketmapjoin.sortedmerge = true;set hive.auto.convert.sortmerge.join.noconditionaltask=true;
一个表的bucket数是另一个表bucket数的整数倍	小表的bucket数=大表bucket数
bucket列 == join列	bucket列 == join列
必须是应用在map join的场景中	必须是应用在bucket mapjoin 的场景中