MapJoin案例详解

最新推荐文章于 2024-05-18 15:40:42 发布

@张火火

最新推荐文章于 2024-05-18 15:40:42 发布

阅读量1.2k

点赞数 3

分类专栏： Hadoop-MapReduce 文章标签： hadoop 大数据 mapreduce

本文链接：https://blog.csdn.net/qq_36640234/article/details/107966942

版权

MapJoin1.MapJoin的重要知识点MapJoin适用于有一张十分小的表和一张甚至多张非常小的表的场景，这样的话就可以在MapTask阶段将非常小的那几张表加载进内存，提前处理业务从而减少Reduce端的压力，以减少数据倾斜。2.案例操作2.1需求 order.txtpididamount

摘要由CSDN通过智能技术生成

MapJoin案例详解

1.MapJoin的重要知识点

MapJoin适用于有一张十分小的表和一张甚至多张非常小的表的场景，这样的话就可以在MapTask阶段将非常小的那几张表加载进内存，提前处理业务从而减少Reduce端的压力，以减少数据倾斜。

2.案例操作

2.1需求

order.txt

pid	id	amount

在这里插入图片描述

pd.txt

id	pname

在这里插入图片描述

要求输出以下形式

id	pname	amount

2.2编程思路

1）创建一个驱动类，类中写明加载缓存数据的代码，设置reduce的数量为0，因为用不到reduce端，直接用map端输出就行

2）因为要把小的表作为缓存文件加载到内存的数据结构中，所以在Mapper的setup方法中就要执行这个操作来获取缓存文件并加载到内存

3）map方法用来封装输出的KV

2.3代码实现

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;


public class MapJoinDriver {
   
    public static void main(String[] args) throws IOException, URISyntaxException, ClassNotFoundException, InterruptedException {
   
        // 1 获取job信息  【需要获取hadoop的配置文件才能运行】
        Configuration conf =

最低0.47元/天解锁文章

@张火火

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
MapJoin案例详解

MapJoin1.MapJoin的重要知识点MapJoin适用于有一张十分小的表和一张甚至多张非常小的表的场景，这样的话就可以在MapTask阶段将非常小的那几张表加载进内存，提前处理业务从而减少Reduce端的压力，以减少数据倾斜。2.案例操作2.1需求 order.txtpididamount
复制链接

扫一扫