MapReduce当中map端做join

最新推荐文章于 2022-06-01 21:09:32 发布

土地公公爷

最新推荐文章于 2022-06-01 21:09:32 发布

阅读量165

点赞数

原文链接：https://blog.csdn.net/mark_to_win/article/details/90378254

版权

Hadoop与MapReduce 专栏收录该内容

33 篇文章 0 订阅

订阅专栏

map端做join

map端做join和reduce端做join有何区别？我们前面讲的是Reduce端join，因为Reduce端join需要把所有的数据都经过Shuffle，非常消耗资源，效率要远远低于Map端join。Map端join是指只有map工作，reduce不工作，这样可以有效的避免数据倾斜。

什么叫数据倾斜（data skew）？假如，你有两个reduce节点，数据都跑到第一个节点，（比如p_id=p1的数据非常多）第二个节点没什么数据，结果第一个节点，工作完成总是卡在99.99%，一直99.99%不能结束。

Map端join的流程是什么：1）在setup阶段：先把一个，这里就是产品全表（即字典表）所有数据读取到HashMap集合中，2）之后再在map方法中一行一行处理数据。缺点： 1.需要一个表（字典表）所有数据都加载到缓存中，所以不能太大。所以带来的问题就是这种mapJoin仅仅适用于大小表，小小表关联。
马克-to-win @ 马克java社区：如何做大表和大表的关联？对于大表和大表的关联： 1.reducejoin可以解决关联问题，但不完美，有数据倾斜的可能，如前所述。 2.思路：将其中一个大表进行切分，成多个小表再进行关联。

package com;

import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.BufferedReader;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.HashMap;
import java.util.Map;

public class MapJoinMapper extends Mapper<LongWritable, Text, Text, NullWritable> {
    Map<String, String> dictMap = new HashMap<>();
    Text k = new Text();

    protected void setup(Context context) throws IOException, InterruptedException {
        String path = context.getCacheFiles()[0].getPath();
        BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(path)));

更多请见：http://www.mark-to-win.com/tutorial/mydb_MapReduce_mapJoin.html

土地公公爷

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce当中map端做join

map端做joinmap端做join和reduce端做join有何区别？我们前面讲的是Reduce端join，因为Reduce端join需要把所有的数据都经过Shuffle，非常消耗资源，效率要远远低于Map端join。Map端join是指只有map工作，reduce不工作，这样可以有效的避免数据倾斜。什么叫数据倾斜（data skew）？假如，你有两个reduce节点，数据都跑到第一个节点...
复制链接

扫一扫

专栏目录