Spark join 的三种实现方式
mysql 的 join 是怎么实现的?
当前 SparkSql 支持三种 join 算法:1、shuffle hash join, 2、broadcast hash join ,3、sort merge join。其中前两者是基于 hash join 的衍生的,只不过是在hash join 之前先进行broadcast 或则 shuffle,然后再进行 hash join,几十年前数据库就有了 hash join 的方法,spark 的这两种 join 只是加上了分布式的场景和思想而已。接下来,我们先说说
原创
2020-08-27 10:02:47 ·
2215 阅读 ·
0 评论