【Hadoop】MapJoin和ReduceJoin的应用实例

最新推荐文章于 2024-09-06 19:15:00 发布

Jaaamieee

最新推荐文章于 2024-09-06 19:15:00 发布

阅读量129

点赞数

分类专栏： Hadoop Java 文章标签： hadoop 大数据分布式

本文链接：https://blog.csdn.net/sinat_38650186/article/details/128968031

版权

Java 同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

Hadoop

4 篇文章 0 订阅

订阅专栏

文章介绍了两种在MapReduce中实现表连接的方法：ReduceJoin和MapJoin。ReduceJoin主要在Reduce阶段处理表连接，而MapJoin则通过在Map阶段缓存小表来减轻Reduce端的压力，适用于大表与小表的关联。文章详细阐述了每种方法的实现思路，包括TableBean对象的序列化、Mapper和Reducer的角色以及如何处理数据倾斜问题。

摘要由CSDN通过智能技术生成

需求

两张表Order.txt和pd.txt, 表结构如下。需要用MapReduce的方法，通过pid连接，生成的表结构为 (id,pname,amount)

[Order.txt]
id,pid,amount
1001,01,1
1002,02,2
1003,03,3
1004,01,4
1005,02,5
1006,03,6
[pd.txt]
pid,pname
01,小米
02,华为
03,格力

方法一：ReduceJoin

思路：
主要是在Reduce端处理表间连接
TableBean.java: 序列化TableBean对象存储(pid,id,pname,amount,fileflag)属性
TableMapper.java: 逐行读取Order.txt和pd.txt, 用split(“,”)转换成字符串数组，分别将数组里的值赋给TableBean对象，对于没有的属性分别赋“”或0，fileflag通过context.getInputSplit()方法获取切片信息中的filename
TableReducer.java: 首先创建一个orderBeans集合，用于存储order信息，创建pdBean用于存储pd信息，后续针对ReduceTask（一个Key执行一次ReduceTask）里的每一个orderBean，传入pdBean.name
TableDriver.java: 驱动类

方法二：MapJoin

思路：
由于Reduce端处理过多的表，容易产生数据倾斜，而在Map端先缓存，提前处理表间连接可以减少Reduce端数据的压力。适合大表与小表的关联。
TableBean.java: 序列化TableBean对象存储(pid,id,pname,amount,fileflag)属性。（也可以不用序列化，直接用Text对象存储Mapper output key）
TableMapper.java: 在setup方法中把缓存中的pd推进HashMap里，在map方法中逐行读取order信息，pdname根据pid作为key去HashMap里找value
TableDriver.java: 驱动类，需要添加以下代码

        //将pd.txt添加到缓存中
        job.addCacheFile(new URI("file:///D:/hadoop/hdfs-learn/HadoopLearn/src/main/resources/TableMapJoin/pd.txt"));
        //不需要Reduce端的操作
        job.setNumReduceTasks(0);
        //***skip***
        //从磁盘读取Order.txt
        FileInputFormat.setInputPaths(job,new Path("src/main/resources/TableMapJoin/Order.txt"));