大数据学习之路21-MR编程，join算法

最新推荐文章于 2022-03-09 18:03:44 发布

未来@音律

最新推荐文章于 2022-03-09 18:03:44 发布

阅读量305

点赞数

分类专栏：大数据生态圈从入门到精通

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/qq_37050372/article/details/81806689

版权

大数据生态圈从入门到精通专栏收录该内容

131 篇文章 36 订阅 ¥19.90 ¥99.00

订阅专栏

本文介绍如何在MapReduce程序中实现join操作，通过用户id将两个数据集合并。内容包括理解数据集、设计思路、map阶段处理（利用uid作为key并结合FileSplit获取文件来源区分数据类型）以及reduce阶段的处理（分离用户数据和订单数据，遍历合并）。附带运行成功的截图。

摘要由CSDN通过智能技术生成

数据集如下：

任务为：将两个文档通过用户id相同的进行合并

思路：将两个文档的内容合并为一个实体,实体中再加一个用户与订单区分的字段，在map阶段使用uid做为key,我们可以通过context拿到FileSplit,再通过FileSplit得到文件名，通过文件名区分用户数据与订单数据。经过map阶段uid相同的肯定会被分配到同一个区。到了reduce阶段，这里的数据都是用户id相同的用户数据与订单数据，我们首先要做的是将用户数据与订单数据分开。这里一定要注意，我们在遍历的时候是使用迭代器遍历的，迭代器中的value其实每次都是同一个对象，只是被worker重新赋值而已。之后我们要做的就是，遍历订单数据，将用户数据与订单数据进行合并。

以下贴出代码：

package com.test.user_order;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.io.Writable;

public class Entity implements Wri

了解本专栏