MapJoin案例详解

MapJoin1.MapJoin的重要知识点MapJoin适用于有一张十分小的表和一张甚至多张非常小的表的场景,这样的话就可以在MapTask阶段将非常小的那几张表加载进内存,提前处理业务从而减少Reduce端的压力,以减少数据倾斜。2.案例操作2.1需求​ order.txtpididamount​
摘要由CSDN通过智能技术生成

MapJoin案例详解

1.MapJoin的重要知识点

MapJoin适用于有一张十分小的表和一张甚至多张非常小的表的场景,这样的话就可以在MapTask阶段将非常小的那几张表加载进内存,提前处理业务从而减少Reduce端的压力,以减少数据倾斜。

2.案例操作

2.1需求

order.txt

pid id amount

在这里插入图片描述

pd.txt

id pname

在这里插入图片描述

要求输出以下形式

id pname amount

2.2编程思路

1)创建一个驱动类,类中写明加载缓存数据的代码,设置reduce的数量为0,因为用不到reduce端,直接用map端输出就行

2)因为要把小的表作为缓存文件加载到内存的数据结构中,所以在Mapper的setup方法中就要执行这个操作来获取缓存文件并加载到内存

3)map方法用来封装输出的KV

2.3代码实现

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;


public class MapJoinDriver {
   
    public static void main(String[] args) throws IOException, URISyntaxException, ClassNotFoundException, InterruptedException {
   
        // 1 获取job信息  【需要获取hadoop的配置文件才能运行】
        Configuration conf =
  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值