MapJoin案例详解
1.MapJoin的重要知识点
MapJoin适用于有一张十分小的表和一张甚至多张非常小的表的场景,这样的话就可以在MapTask阶段将非常小的那几张表加载进内存,提前处理业务从而减少Reduce端的压力,以减少数据倾斜。
2.案例操作
2.1需求
order.txt
pid | id | amount |
---|---|---|
pd.txt
id | pname |
---|---|
要求输出以下形式
id | pname | amount |
---|---|---|
2.2编程思路
1)创建一个驱动类,类中写明加载缓存数据的代码,设置reduce的数量为0,因为用不到reduce端,直接用map端输出就行
2)因为要把小的表作为缓存文件加载到内存的数据结构中,所以在Mapper的setup方法中就要执行这个操作来获取缓存文件并加载到内存
3)map方法用来封装输出的KV
2.3代码实现
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;
public class MapJoinDriver {
public static void main(String[] args) throws IOException, URISyntaxException, ClassNotFoundException, InterruptedException {
// 1 获取job信息 【需要获取hadoop的配置文件才能运行】
Configuration conf =