Mapreduce中几种join的实现逻辑思想

最新推荐文章于 2023-05-09 09:44:02 发布

数据!您好

最新推荐文章于 2023-05-09 09:44:02 发布

阅读量370

点赞数

本文链接：https://blog.csdn.net/w5201314ws6123/article/details/87897338

版权

在mapreduce中分为3大join逻辑,分别的是Map端的join，reduce端的join，semi join

1>map 端的join实现逻辑:首先他会有2个map任务，第一个Map任务会将小表的数据完全加载到内存中，并且将数据映射成hashmap的数据结构，在该结构中key就是对应的我们连接的那个key,第2个map任务会去扫描大表的数据,与小表中的数据的key去匹配，如果相等，就进行一个连接操作

2>reduce端的join:map任务会将将每个表映射成k,v的数据结构，并对表的数据进行打入来源标记,在reduce任务中，获取2张表享同的key就进行一个连接操作

3>semi join：该join的是实现其实就是reduce端join 的一个优化，会在map端过滤掉不能join的数据,这样就可以减少数据的传输，减少磁盘io.