Spark join的分类

最新推荐文章于 2024-04-13 21:19:08 发布

K. Bob

最新推荐文章于 2024-04-13 21:19:08 发布

阅读量730

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/ThreeAspects/article/details/106438601

版权

本文详细介绍了Spark SQL支持的四种Join算法：Hash Join、Broadcast Hash Join、Shuffle Hash Join和Sort-Merge Join。Hash Join通过构建Hash Table进行join操作；Broadcast Hash Join适合小表，将小表广播到所有节点；Shuffle Hash Join针对不适宜广播的大表，按key进行重分布；Sort-Merge Join则对大表进行排序后再进行join，提高稳定性。

摘要由CSDN通过智能技术生成

当前SparkSQL支持三种Join算法：shuffle hash join、broadcast hash join以及sort merge join。

Hash Join

采用hash join算法，整个过程会经历三步：

确定Build Table以及Probe Table：Build Table使用join key构建Hash Table，而Probe Table使用join key进行探测，探测成功就可以join在一起。通常情况下，小表会作为Build Table，大表作为Probe Table。
构建Hash Table：依次读取Build Table的数据，对于每一行数据根据join key进行hash，hash到对应的Bucket，生成hash table中的一条记录。数据缓存在内存中，如果内存放不下需要dump到外存。
探测：再依次扫描Probe Table的数据，使用相同的hash函数映射Hash Table中的记录，映射成功之后再检查join条件，如果匹配成功就可以将两者join在一起。

Broadcast Hash Join

将其中一张小表广播分发到另一张大表所在的分区节点上，分别并发地与其上的分区记录进行hash join。broadcast适用于小表很小，可以

最低0.47元/天解锁文章

K. Bob

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark join的分类

当前SparkSQL支持三种Join算法：shuffle hash join、broadcast hash join以及sort merge join。Hash Join 采用hash join算法，整个过程会经历三步：确定Build Table以及Probe Table：Build Table使用join key构建Hash Table，而Probe Table使用join key进行探测，探测成功就可以join在一起。通常情况下，小表会作为Build Table，大表作为Probe Ta
复制链接

扫一扫

专栏目录