大数据技术学习笔记（五）—— MapReduce（2

最新推荐文章于 2024-04-28 18:20:22 发布

2401_84182842

最新推荐文章于 2024-04-28 18:20:22 发布

阅读量823

点赞数 21

分类专栏：程序员文章标签：大数据学习笔记

本文链接：https://blog.csdn.net/2401_84182842/article/details/138286422

版权

程序员专栏收录该内容

123 篇文章 0 订阅

订阅专栏

2.1 MapTask 工作机制

在这里插入图片描述

（1）Read 阶段：MapTask 通过 InputFormat 获得的 RecordReader，从输入InputSplit 中解析出一个个key/value。

（2）Map 阶段：该节点主要是将解析出的key/value交给用户编写map()函数处理，并产生一系列新的 key/value。

（3）Collect 收集阶段：在用户编写 map() 函数中，当数据处理完成后，一般会调用 OutputCollector.collect() 输出结果。在该函数内部，它会将生成的 key/value 分区（调用Partitioner），并写入一个环形内存缓冲区中。

（4）Spill 阶段：即“溢写”，当环形缓冲区满后，MapReduce 会将数据写到本地磁盘上，生成一个临时文件。需要注意的是，将数据写入本地磁盘之前，先要对数据进行一次本地排序，并在必要时对数据进行合并、压缩等操作。

溢写阶段详情：

步骤1：利用快速排序算法对缓存区内的数据进行排序，排序方式是，先按照分区编号 Partition 进行排序，然后按照 key 进行排序。这样，经过排序后，数据以分区为单位聚集在一起，且同一分区内所有数据按照key有序。
步骤2：按照分区编号由小到大依次将每个分区中的数据写入任务工作目录下的临时文件output/spillN.out（N表示当前溢写次数）中。如果用户设置了Combiner，则写入文件之前，对每个分区中的数据进行一次聚集操作。
步骤3：将分区数据的元信息写到内存索引数据结构 SpillRecord 中，其中每个分区的元信息包括在临时文件中的偏移量、压缩前数据大小和压缩后数据大小。如果当前内存索引大小超过1MB，则将内存索引写到文件 output/spillN.out.index 中。

（5）Merge阶段：当所有数据处理完成后，MapTask 对所有临时文件进行一次合并，以确保最终只会生成一个数据文件。

当所有数据处理完后，MapTask 会将所有临时文件合并成一个大文件，并保存到文件output/file.out 中，同时生成相应的索引文件 output/file.out.index。

在进行文件合并过程中，MapTask 以分区为单位进行合并。对于某个分区，它将采用多轮递归合并的方式。每轮合并 mapreduce.task.io.sort.factor（默认10）个文件，并将产生的文件重新加入待合并列表中，对文件排序后，重复以上过程，直到最终得到一个大文件。

让每个 MapTask 最终只生成一个数据文件，可避免同时打开大量文件和同时读取大量小文件产生的随机读取带来的开销。

2.2 ReduceTask 工作机制

在这里插入图片描述

（1）Copy 阶段：ReduceTask 从各个 MapTask 上远程拷贝一片数据，并针对某一片数据，如果其大小超过一定阈值，则写到磁盘上，否则直接放到内存中。

（2）Merge 阶段：在远程拷贝数据的同时，ReduceTask 启动了两个后台线程对内存和磁盘上的文件进行合并，以防止内存使用过多或磁盘上文件过多。

（3）Sort 阶段：按照 MapReduce 语义，用户编写 reduce() 函数输入数据是按 key 进行聚集的一组数据。为了将 key 相同的数据聚在一起，Hadoop 采用了基于排序的策略。由于各个 MapTask 已经实现对自己的处理结果进行了局部排序，因此，ReduceTask 只需对所有数据进行一次归并排序即可。

（4）Reduce 阶段：对排序后的键值对调用 reduce() 方法，键相同的键值对调用一次reduce() 方法。

（5）Write 阶段：reduce()函数将计算结果写到 HDFS上。

2.3 MapTask 并行度决定机制

MapTask的并行度决定Map阶段的任务处理并发度，进而影响到整个Job的处理速度。

数据块：Block是 HDFS 物理上把数据分成一块一块。数据块是 HDFS 存储数据单位。

数据切片：数据切片只是在逻辑上对输入进行分片，并不会在磁盘上将其切分成片进行存储。数据切片是 MapReduce 程序计算输入数据的单位，一个切片会对应启动一个MapTask。

在这里插入图片描述

一个Job的Map阶段并行度（MapTask ）由客户端在提交Job时的切片数决定；（一个切片就会产生一个MapTask并行处理）
默认情况下，切片大小=BlockSize=128M；（这样设计的目的是为了避免将来切片读取数据的时候有跨机器读取数据 的情况，这样效率是很低的）
切片时不考虑整体数据集，而是逐个针对每一个文件单独切片

2.4 ReduceTask 并行度决定机制

回顾：MapTask并行度由切片个数决定，切片个数由输入文件和切片规则决定。
思考：ReduceTask并行度由谁决定？

ReduceTask 的并行度同样影响整个Job的执行并发度和执行效率，但与 MapTask 的并发数由切片数决定不同，ReduceTask 数量的决定是可以直接手动设置的。

// 默认值是1，手动设置为4
job.setNumReduceTasks(4);

（1）ReduceTask = 0，表示没有 Reduce 阶段，输出文件的个数和 Map 个数一致。

（2）ReduceTask 的默认值就是1，所以输出文件的个数为1个。

（3）如果数据分布不均匀，就有可能在Reduce阶段产生数据倾斜。

（4）ReduceTask 数量不是任意设置的，还要考虑业务逻辑需求，在有些情况下，需要计算全局汇总结果，就只能有一个ReduceTask 。

（5）具体多少个ReduceTask ，需要根据集群的性能而定。

（6）如果分区数不是1，但是 ReduceTask 为1，是否执行分区过程？答案是：不执行，因为在 MapTask 的源码中，执行分区的前提是先判断 ReduceNum 是否大于1，不大于1则不执行。

2.5 Shuffle 机制

2.5.1 Shuffle 机制流程

Map 方法之后，Reduce 方法之前的数据处理过程称之为 Shuffle 。

在这里插入图片描述

注意：

图中的Map1方法不要理解为 Mapper 中重写的 map 方法，把它看成一个 MapTask 的执行，一个 MapTask 是会调用多个 map 方法的；
环形缓冲区（默认大小为100M）其实就是在内存中，其中每一个分区内部所使用的排序算法是快速排序；
每个相同分区之间采用的是归并排序，在磁盘上进行
当环形缓冲区的数据量达到自身容量的 80%，会发生第一次溢写

Shuffle 机制流程

（1）MapTask收集我们的map()方法输出的 kv 对，放到内存缓冲区中

（2）从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件

（3）多个溢出文件会被合并成大的溢出文件

（4）在溢出过程及合并的过程中，都要调用Partitioner进行分区和针对key进行排序

（5）ReduceTask根据自己的分区号，去各个MapTask机器上取相应的结果分区数据

（6）ReduceTask会抓取到同一个分区的来自不同MapTask的结果文件，ReduceTask会将这些文件再进行合并（归并排序）

（7）合并成大文件后，Shuffle的过程也就结束了，后面进入ReduceTask的逻辑运算过程（从文件中取出一个一个的键值对Group，调用用户自定义的reduce()方法）

注意：

Shuffle中的缓冲区大小会影响到 MapReduce
程序的执行效率，原则上说，缓冲区越大，则可以容纳更多的数据并减少写入磁盘的次数，磁盘IO的次数越少，执行速度就越快。
缓冲区的大小可以通过参数调整，参数：mapreduce.task.io.sort.mb 默认100M。

2.5.2 Paratition 分区

要求将统计结果按照条件输出到不同的文件（分区）中。比如：将统计结果按照手机归属地不同省份输出到不同的文件中（分区）。

（1）Hadoop默认的分区规则源码解析

定位 MapTask 的 map 方法中 context.write(outk, outv);
跟到 write(outk, outv) 中进入到 ChainMapContextImpl 类的实现中

public void write(KEYOUT key, VALUEOUT value) throws IOException,
	InterruptedException {
		output.write(key, value);
	}

跟到 output.write(key, value) 内部实现类 NewOutputCollector

public void write(K key, V value) throws IOException, InterruptedException {
	collector.collect(key, value,
					partitioner.getPartition(key, value, partitions));
}

重点理解 partitioner.getPartition(key, value, partitions);

跟进默认的分区规则实现类 HashPartitioner

public int getPartition(K key, V value,
						  int numReduceTasks) {				  
	// 根据当前的key的hashCode值和ReduceTask的数量进行取余操作
	// 获取到的值就是当前kv所属的分区编号。
	return (key.hashCode() & Integer.MAX\_VALUE) % numReduceTasks;
}

在这里插入图片描述

Partitioner是 Hadoop 的分区器对象，负责给 Map 阶段输出数据选择分区的功能。

默认分区是根据 key 的 hashCode 对 ReduceTask 的个数取模得到的数字编号，这个分区编号在Job提交的时候就已经定义好了。用户没法控制哪个 key 存储到哪个分区。

（2）自定义分区规则

将统计结果按照手机归属地不同省份输出到不同文件（分区）中。

使用在大数据技术学习笔记（五）—— MapReduce（1）2.3小节案例的数据 phone_data.txt，手机号136、137、138、139开头都分别放到一个独立的4个文件中，其他开头的放到一个文件中。

在案例 2.3 的基础上，增加一个分区类

//自定义一个分区器对象，需要继承Hadoop提供的Partitioner对象
//这里的泛型就是Mapper输出的泛型
public class FlowPartitioner extends Partitioner<Text, FlowBean> {
    /\*\*
 \* 定义当前kv所属分区的规则
 \*
 \* @param text the key to be partioned.
 \* @param flowBean the entry value.
 \* @param numPartitions the total number of partitions.
 \* 分区
 \* 136 ——> 0
 \* 137 ——> 1
 \* 138 ——> 2
 \* 139 ——> 3
 \* 其他 ——> 4
 \*/
    @Override
    public int getPartition(Text text, FlowBean flowBean, int numPartitions) {
        int phonePartition;
        // 获取手机号
        String phoneNum = text.toString();
        if(phoneNum.startsWith("136")){
            phonePartition=0;
        } else if (phoneNum.startsWith("137")) {
            phonePartition=1;
        }else if (phoneNum.startsWith("138")) {
            phonePartition=2;
        }else if (phoneNum.startsWith("139")) {
            phonePartition=3;
        }else {
            phonePartition=4;
        }
        return phonePartition;
    }
}

在驱动函数中增加自定义数据分区设置和 ReduceTask 设置

// 指定ReduceTask的数量
job.setNumReduceTasks(5);
// 指定自定义的分区器对象实现
job.setPartitionerClass(FlowPartitioner.class);

分区器使用时注意事项

当 ReduceTask 的数量（设置的分区数） > getPartition的结果数（实际用到的分区数），此时会生成空的分区文件
当 ReduceTask 的数量（设置的分区数） < getPartition的结果数（实际用到的分区数），导致有一部分数据无处安放，此时会报错
当 ReduceTask 的数量（设置的分区数） = 1，则不管 MapTask 端输出多少个分区文件，最终结果文件会输出到一个文件part-r-00000中
分区编号生成的规则：根据指定的ReduceTask的数量从 0 开始，依次累加。

2.5.3 WritableComparable 排序

排序是MR最重要的操作之一。

MapTask 和 ReduceTask 均会对数据按照 key 进行排序。该操作属于 Hadoop 的默认行为。任何应用程序中的数据均会被排序，而不管逻辑上是否需要。

默认排序是按照字典顺序排序，且实现该排序的方法是快速排序。

对于 MapTask，它会将处理的结果暂时存放到环形缓冲区中，当环形缓冲区使用率达到一定的阈值后，再对缓冲区中的数据进行一次快速排序，并将这些有序数据溢写到磁盘上，而当数据处理完毕后，它会对磁盘上所有的文件进行归并排序。

对于ReduceTask，它从每个 MapTask上远程拷贝相应的数据文件，如果文件大小超过一定阈值，则溢写到磁盘上，否则存储在内存中。如果磁盘上文件数目达到一定的阈值，则进行一次归并排序以生成一个更大的文件；如果内存中文件大小或文件数目超过一定的阈值，则进行一次合并后将数据溢写到磁盘上。当所有的数据拷贝完成后，ReduceTask统一对内存和磁盘上所有的数据进行一次归并排序。

排序分类

部分排序：MapReduce根据输入记录的键对数据集排序。保证每个输出文件内部有序。
全排序：最终的输出结果只有一个文件，且文件内部有序。实现方式是只设置一个ReduceTask。但该方法在处理大型文件时效率极低，因为一台机器处理所有的文件，完全丧失了 MapReduce 所提供的并行架构。
二次排序：在自定义排序过程中，如果 compareTo 中的判断条件为两个即为二次排序。

这里仍然使用在大数据技术学习笔记（五）—— MapReduce（1）2.3小节案例

代码编写

FlowBean.java

package com.huwei.mr.sort;

import org.apache.hadoop.io.WritableComparable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

public class FlowBean implements WritableComparable<FlowBean> {

    private Integer upFlow;
    private Integer downFlow;
    private Integer sumFlow;

    // 默认有无参构造方法

    public Integer getUpFlow() {
        return upFlow;
    }

    public void setUpFlow(Integer upFlow) {
        this.upFlow = upFlow;
    }

    public Integer getDownFlow() {
        return downFlow;
    }

    public void setDownFlow(Integer downFlow) {
        this.downFlow = downFlow;
    }

    public Integer getSumFlow() {
        return sumFlow;
    }

    public void setSumFlow(Integer sumFlow) {
        this.sumFlow = sumFlow;
    }

    @Override
    public String toString() {
        return "FlowBean{" +
                "upFlow=" + upFlow +
                ", downFlow=" + downFlow +
                ", sumFlow=" + sumFlow +
                '}';
    }

    /\*\*
 \* 序列化方法
 \*/
    @Override
    public void write(DataOutput dataOutput) throws IOException {
        dataOutput.writeInt(upFlow);
        dataOutput.writeInt(downFlow);
        dataOutput.writeInt(sumFlow);
    }

    /\*\*
 \* 反序列化方法
 \* （顺序要和序列化方法一致）
 \*/
    @Override
    public void readFields(DataInput dataInput) throws IOException {
        upFlow = dataInput.readInt();
        downFlow = dataInput.readInt();
        sumFlow = dataInput.readInt();
    }

    // 计算上下行流量之和
    public void setSumFlow() {
        this.sumFlow = this.upFlow + this.downFlow;
    }

    /\*\*
 \* 自定义排序规则
 \* 需求：根据总流量倒序
 \* @param o the object to be compared.
 \* @return
 \*/
    @Override
    public int compareTo(FlowBean o) {
        //按照总流量比较,倒序排列
        if(this.sumFlow > o.sumFlow){
            return -1;
        }else if(this.sumFlow < o.sumFlow){
            return 1;
        }else {
            return 0;
        }

// return -this.getSumFlow().compareTo(o.getSumFlow());

    }
}

注意：在public class FlowBean implements WritableComparable<FlowBean>中我将，WritableComparable写成Writable, Comparable，出现ClassCastException报错。参考MapReduce——ClassCastException报错如何解决中方法二

2.5.4 Combiner 合并

Combiner 是 MR 程序中 Mapper 和 Reducer 之外的一种组件，Combiner 的父类就是 Reducer 。

Combiner 和 Reducer 的区别就在于运行的位置，

Combiner 是在每一个 MapTask 所在的节点运行
Reducer 是接收全局所有 Mapper 的输出结果。

Combiner 的意义就是对每一个 MapTask 的输出进行局部汇总，以减小网络的传输量。总的来说，就是为了减轻 ReduceTask 的压力，减少了IO开销，提升 MR 的运行效率。

注意： Combiner 能够运用的前提是不能影响最终的业务逻辑，而且， Combiner 的输出 kv 应该和 Reducer 的输入 kv 类型要对应起来。

以 WordCount 案例为例

（1）增加一个WordCountCombiner类继承Reducer

package com.huwei.mr.combiner;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/\*\*
 \* 自定义Combiner类需要继承Hadoop提供的Reducer类
 \* 注意：Combiner流程一定发生在Map阶段
 \*/
public class WordCountCombiner extends Reducer<Text, IntWritable, Text, IntWritable>{
    private Text outk = new Text();
    private IntWritable outv = new IntWritable();

    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {
        int total = 0;
        // 遍历values
        for (IntWritable value : values) {
            // 对value累加，输出结果
            total += value.get();
        }
        // 封装key和value
        outk.set(key);
        outv.set(total);
        context.write(outk, outv);
    }
}

（2）在WordcountDriver驱动类中指定 Combiner

// 指定自定义的Combiner类
job.setCombinerClass(WordCountCombiner.class);

运行程序，如下图所示

在这里插入图片描述

注意：
Combiner不适用的场景：Reduce端处理的数据考虑到多个MapTask的数据的整体集时就不能提前合并了。（如求平均数）

2.6 MapReduce 工作流程

在这里插入图片描述

上面的流程是整个 MapReduce 的工作流程，其中从第7步开始到第16步结束为Shuffle过程。

3 Join 应用

3.1 Reduce Join

（1）案例需求

在这里插入图片描述

其中

order.txt

pd.txt

01	小米
02	华为
03	格力

（2）需求分析

通过将关联条件作为 Map 输出的 key，将两表满足 Join 条件的数据并携带数据所来源的文件信息，发往同一个 ReduceTask，在 Reduce 中进行数据的串联。

（3）代码编写

商品和订单表合并后的对象类 Orderpd.java

package com.huwei.mr.reducejoin;

import org.apache.hadoop.io.Writable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

public class Orderpd implements Writable {
    // order表数据
    private String orderId;
    private String pid;
    private Integer amount;
    // pd表数据
    private String pname;
    // 区分数据来源，判断是order表还是pd表的标志字段
    private String flag;

    public String getOrderId() {
        return orderId;
    }

    public void setOrderId(String orderId) {
        this.orderId = orderId;
    }

    public String getPid() {
        return pid;
    }

    public void setPid(String pid) {
        this.pid = pid;
    }

    public Integer getAmount() {
        return amount;
    }

    public void setAmount(Integer amount) {
        this.amount = amount;
    }

    public String getPname() {
        return pname;
    }

    public void setPname(String pname) {
        this.pname = pname;
    }

    public String getFlag() {
        return flag;
    }

    public void setFlag(String flag) {
        this.flag = flag;
    }

    @Override
    public String toString() {
        return "Orderpd{" +
                "orderId='" + orderId + '\'' +
                ", pname='" + pname + '\'' +
                ", amount='" + amount + '\'' +
                '}';
    }

    /\*\*
 \* 序列化
 \* @param dataOutput
 \* @throws IOException
 \*/
    @Override
    public void write(DataOutput dataOutput) throws IOException {
        dataOutput.writeUTF(orderId);
        dataOutput.writeUTF(pid);
        dataOutput.writeInt(amount);
        dataOutput.writeUTF(pname);
        dataOutput.writeUTF(flag);

    }

    /\*\*
 \* 反序列化
 \* @param dataInput
 \* @throws IOException
 \*/
    @Override
    public void readFields(DataInput dataInput) throws IOException {
        orderId = dataInput.readUTF();
        pid = dataInput.readUTF();
        amount = dataInput.readInt();
        pname = dataInput.readUTF();
        flag = dataInput.readUTF();
    }
}

Map端 ReduceJoinMapper.java

package com.huwei.mr.reducejoin;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

import java.io.IOException;

/\*\*
 \* Map端输出的 key是 pid，value是 Orderpd 对象
 \*/
public class ReduceJoinMapper extends Mapper<LongWritable, Text, Text, Orderpd> {

    private Text outk = new Text();
    private Orderpd outv = new Orderpd();
    private FileSplit inputSplit;

    @Override
    protected void setup(Mapper<LongWritable, Text, Text, Orderpd>.Context context) throws IOException, InterruptedException {
        // 获取切片对象
        inputSplit = (FileSplit) context.getInputSplit();
    }

    /\*\*
 \* 业务处理方法 ——> 将两个需要做关联的文件数据进行搜集
 \*
 \* @param key
 \* @param value
 \* @param context
 \* @throws IOException
 \* @throws InterruptedException
 \*/
    @Override
    protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, Orderpd>.Context context) throws IOException, InterruptedException {
        // 获取当前行数据
        String line = value.toString();
        // 切割数据
        String[] datas = line.split("\t");
        // 将当前数据封装到Text（key）、Orderpd（value）中
        // 先判断数据来源于哪个表
        if (inputSplit.getPath().getName().contains("order")) {
            // 当前数据来源于order表
            // 封装输出数据的key
            outk.set(datas[1]); // pid
            // 封装输出数据的value
            outv.setOrderId(datas[0]); // id
            outv.setPid(datas[1]); // pid
            outv.setAmount(Integer.parseInt(datas[2])); // amount
            outv.setPname(""); // pname，order表中没有该字段，但不能不设置，否则该属性为null，不能被序列化，会报错
            outv.setFlag("order");
        } else {
            // 当前数据来源于pd表
            // 封装输出数据的key
            outk.set(datas[0]); // pid
            // 封装输出数据的value
            outv.setOrderId(""); // id
            outv.setPid(datas[0]); // pid
            outv.setAmount(0); // amount
            outv.setPname(datas[1]); // pname
            outv.setFlag("pd");
        }
        // 将数据写出
        context.write(outk, outv);
        
    }
}

注意：在进行序列化和反序列化操作时，如果对象中存在 null 值，就可能会出现报错的情况。在上述封装对象的过程中，如果表中没有某个字段，也不能不设置，只需设置该数据类型的默认值，否则该属性为null，不能被序列化，会报错。

Reduce 端 ReduceJoinReducer.java

package com.huwei.mr.reducejoin;

import org.apache.commons.beanutils.BeanUtils;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;
import java.lang.reflect.InvocationTargetException;
import java.util.ArrayList;

public class ReduceJoinReducer extends Reducer<Text, Orderpd, Orderpd, NullWritable> {

    private Orderpd orderpd = new Orderpd();
    private ArrayList<Orderpd> orderList = new ArrayList<>();

    /\*\*
 \* 业务处理方法 ——> 接收Map端整合好的数据，进行最终的join操作
 \*
 \* @param key
 \* @param values
 \* @param context
 \* @throws IOException
 \* @throws InterruptedException
 \*/
    @Override
    protected void reduce(Text key, Iterable<Orderpd> values, Reducer<Text, Orderpd, Orderpd, NullWritable>.Context context) throws IOException, InterruptedException {
        // 遍历当前相同key的一组values
        for (Orderpd value : values) {
            // 判断当前数据来源
            // 当前数据来源于order文件
            if ("order".equals(value.getFlag())) {
                Orderpd thisorder = new Orderpd();
                // 将当前传入Orderpd对象value复制到新创建的对象thisorder中去
                // 参数1：目标参数；参数2：原始参数
                try {
                    BeanUtils.copyProperties(thisorder, value);
                    orderList.add(thisorder);
                } catch (IllegalAccessException e) {
                    throw new RuntimeException(e);
                } catch (InvocationTargetException e) {
                    throw new RuntimeException(e);
                }

            } else {
                // 当前数据来源于pd文件
                try {
                    BeanUtils.copyProperties(orderpd, value);
                } catch (IllegalAccessException e) {
                    throw new RuntimeException(e);
                } catch (InvocationTargetException e) {
                    throw new RuntimeException(e);
                }

            }

        }

        // 进行Join操作
        for (Orderpd op : orderList) {
            op.setPname(orderpd.getPname());
            // 将数据写出
            context.write(op, NullWritable.get());
        }

        // 清空 orderList
        orderList.clear();
        
    }
}

注意：

在Java中，在遍历每一个对象时，都会在堆里新创建对象，而在hadoop中，由于内存资源在Hadoop中是极为珍贵的，当遍历每一个对象时，不会在堆中新创建对象，也就是说栈中对象所有的引用都指向堆中一个对象，每次遍历都会动态修改对象的值。这样会导致集合中的对象会被下一个对象覆盖。
NullWritable是Writable的一个特殊类，实现方法为空实现，不从数据流中读数据，也不写入数据，只充当占位符，如在MapReduce中，如果你不需要使用键或值，你就可以将键或值声明为NullWritable,NullWritable是一个不可变的单实例类型。

Driver 端 ReduceJoinDriver.java

package com.huwei.mr.reducejoin;



import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class ReduceJoinDriver {
    public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {
        // 声明配置对象
        Configuration conf = new Configuration();
        // 声明Job对象
        Job job = Job.getInstance(conf);

        // 指定当前Job的驱动类
        job.setJarByClass(ReduceJoinDriver.class);
        // 指定当前Job的Mapper
        job.setMapperClass(ReduceJoinMapper.class);
        // 指定当前Job的Reducer
        job.setReducerClass(ReduceJoinReducer.class);

        // 指定Map端输出数据的key的类型和输出数据value的类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(Orderpd.class);
        // 指定最终（Reduce端）输出数据的key的类型和输出数据value的类型
        job.setOutputKeyClass(Orderpd.class);
        job.setOutputValueClass(NullWritable.class);

        FileInputFormat.setInputPaths(job, new Path("E:\\hadoop\\in\\reducejoin"));
        FileOutputFormat.setOutputPath(job, new Path("E:\\hadoop\\out\\reducejoin"));

        // 提交Job
        job.waitForCompletion(true);
    }
}

缺点：
这种方式中，合并的操作是在Reduce阶段完成，Reduce端的处理压力太大，Map节点的运算负载则很低，资源利用率不高
且在Reduce阶段极易产生数据倾斜。

解决方案：Map端实现数据合并。

逻辑处理接口：Mapper
用户根据业务需求实现其中三个方法：map() setup() cleanup ()

逻辑处理接口：Reducer
用户根据业务需求实现其中三个方法：reduce() setup() cleanup ()

3.2 Map Join

在Reduce端处理过多的表，非常容易产生数据倾斜。怎么办？

优点：在Map端缓存多张表，提前处理业务逻辑，这样增加 Map 端业务，减少 Reduce 端数据的压力，尽可能的减少数据倾斜。

使用场景：Map Join适用于一张表十分小、一张表很大的场景。

具体办法：采用 DistributedCache

在 Mapper 的setup阶段，将文件读取到缓存集合中。
在 Driver 驱动类中加载缓存。

Map Join思路分析：当 MapTask 执行的时候，先把数据量较小的文件 pd.txt 缓存到内存当中去。MapTask 正常将 order.txt 的数据读取输入，每处理一行数据，就可以根据文件中的 pid 作为 key 到内存中的 HashMap 中获取对应的 pname。

代码编写

Map 端 MapJoinMapper.java

package com.huwei.mr.mapjoin;

import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URI;
import java.util.HashMap;
import java.util.Map;

/\*\*
 \* 1. 处理缓存文件：从job设置的缓存路径中获取到
 \* 2. 根据缓存文件的路径再结合输入流把pd.txt文件的内容写入到内存中的容器中维护
 \*/
public class MapJoinMapper extends Mapper<LongWritable, Text, Text, NullWritable> {

    private Map<String, String> pdMap = new HashMap<>();
    private Text outk = new Text();

    /\*\*
 \* 处理缓存文件
 \*
 \* @param context
 \* @throws IOException
 \* @throws InterruptedException
 \*/
    @Override
    protected void setup(Mapper<LongWritable, Text, Text, NullWritable>.Context context) throws IOException, InterruptedException {
        //通过缓存文件得到小表数据pd.txt
        URI[] cacheFiles = context.getCacheFiles();
        URI cacheFile = cacheFiles[0];
        // 准备输入流对象


![img](https://img-blog.csdnimg.cn/img_convert/ef738a14df828db88f7a3c27a8633220.png)
![img](https://img-blog.csdnimg.cn/img_convert/e2009b0313d5381b9f183c8917275475.png)

**网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

**[需要这份系统化资料的朋友，可以戳这里获取](https://bbs.csdn.net/topics/618545628)**


**一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**

ort java.net.URI;
import java.util.HashMap;
import java.util.Map;

/\*\*
 \* 1. 处理缓存文件：从job设置的缓存路径中获取到
 \* 2. 根据缓存文件的路径再结合输入流把pd.txt文件的内容写入到内存中的容器中维护
 \*/
public class MapJoinMapper extends Mapper<LongWritable, Text, Text, NullWritable> {

    private Map<String, String> pdMap = new HashMap<>();
    private Text outk = new Text();

    /\*\*
 \* 处理缓存文件
 \*
 \* @param context
 \* @throws IOException
 \* @throws InterruptedException
 \*/
    @Override
    protected void setup(Mapper<LongWritable, Text, Text, NullWritable>.Context context) throws IOException, InterruptedException {
        //通过缓存文件得到小表数据pd.txt
        URI[] cacheFiles = context.getCacheFiles();
        URI cacheFile = cacheFiles[0];
        // 准备输入流对象


[外链图片转存中...(img-BMXxoY9G-1714298276127)]
[外链图片转存中...(img-Rr3Y9Gl3-1714298276127)]

**网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

**[需要这份系统化资料的朋友，可以戳这里获取](https://bbs.csdn.net/topics/618545628)**


**一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**

2401_84182842

关注

21
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
大数据技术学习笔记（五）—— MapReduce（2

当所有的数据拷贝完成后，在上述封装对象的过程中，如果表中没有某个字段，也不能不设置，只需设置该数据类型的默认值，否则该属性为null，不能被序列化，会报错。ReduceTask 的并行度同样影响整个Job的执行并发度和执行效率，但与 MapTask 的并发数由切片数决定不同，ReduceTask 数量的决定是可以直接手动设置的。通过将关联条件作为 Map 输出的 key，将两表满足 Join 条件的数据并携带数据所来源的文件信息，发往同一个 ReduceTask，在 Reduce 中进行数据的串联。
复制链接

扫一扫