9.Join的应用

最新推荐文章于 2024-08-30 18:40:43 发布

菠萝橡皮刀

最新推荐文章于 2024-08-30 18:40:43 发布

阅读量426

点赞数

文章标签： java 开发语言

本文链接：https://blog.csdn.net/m0_58420188/article/details/130347810

版权

文章详细介绍了在HadoopMapReduce环境中如何使用reduceJoin和MapJoin来合并两个表的数据。reduceJoin通过Map阶段的数据封装和Reduce阶段的数据处理，实现了基于pid的表合并，而MapJoin则通过在map阶段完成join，避免了reduce过程，提高了效率，尤其适用于内表较小的情况。文章提供了具体的Order类实现、mapper和reducer的编写示例，以及driver类的配置说明。

摘要由CSDN通过智能技术生成

1.reduceJoin的应用

案例：将两个表合并成一个新的表

需求分析：通过将关联条件作为Map输出的key（此处指pid），将两表满足Join条件的数据并携带数据所来源的文件信息，发往同一个ReduceTask，在Reduce中进行数据的串联

思路：

map：

将输入数据统一封装为一个Bean，此Bean包含了商品表和订单表的所有公共和非公共属性，相当于进行了全外连接，并新增加一个属性——文件名称，以区分数据是来自与商品表还是订单表,便于在reduce阶段数据的处理；map输出的key是pid，value是bean

shuffle：

根据pid对bean进行排序，所有pid相同的数据都会被聚合到同一个key下，发往同一个reducetask

reduce：

对同一个pid下所有的bean，首先要区分出它们是来自于哪个表，是商品表还是订单表。如果是商品表，数据只有一条，保存其中的pname属性；如果是订单表，数据有多条，用保存的pname属性替换pid属性，并输出

代码：

（1）创建表格合并后的Order类

public class OrderPd implements Writable {
    private String id; //订单id
    private String pid; //产品id
    private int amount; //产品数量
    private String pname; //产品名称
    private String flag; //判断是order表还是pd表的标志字段
}

一键生成set/get/构造函数（略过）

重写toString():

  @Override
    public String toString() {
        return id + "\t" + pname + "\t" + amount;
    }

将这五个特征序列化：

    public void write(DataOutput out) throws IOException {
        out.writeUTF(id);
        out.writeUTF(pid);
        out.writeInt(amount);
        out.writeUTF(pname);
        out.writeUTF(flag);
    }

反序列化：

    public void readFields(DataInput in) throws IOException {
        this.id = in.readUTF();
        this.pid = in.readUTF();
        this.amount = in.readInt();
        this.pname = in.readUTF();
        this.flag = in.readUTF();
    }

（2）编写mapper类：将两个表上下拼接到了一起

思路：先获取文件名，然后根据不同的文件名执行不同的操作