2024年最全大数据技术学习笔记（五）—— MapReduce（2，金三银四大厂面经总结

本文链接：https://blog.csdn.net/2301_78399616/article/details/138642841

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

long maxSize = getMaxSplitSize(job);

// 管理最终切完片的对象的集合，最终返回的就是此集合
List<InputSplit> splits = new ArrayList<InputSplit>();
// 获取当前文件的详情
List<FileStatus> files = listStatus(job);

boolean ignoreDirs = !getInputDirRecursive(job)
  && job.getConfiguration().getBoolean(INPUT\_DIR\_NONRECURSIVE\_IGNORE\_SUBDIRS, false);
//遍历获取到的文件列表，依次以文件为单位进行切片
for (FileStatus file: files) {
  // 如果是忽略文件以及是文件夹，就不进行切片
  if (ignoreDirs && file.isDirectory()) {
    continue;
  }
  // 获取文件的当前路径
  Path path = file.getPath();
  // 获取文件的大小
  long length = file.getLen();
  // 如果不是空文件
  if (length != 0) {
    // 获取文件的具体的块信息
    BlockLocation[] blkLocations;
    if (file instanceof LocatedFileStatus) {
      blkLocations = ((LocatedFileStatus) file).getBlockLocations();
    } else {
      FileSystem fs = path.getFileSystem(job.getConfiguration());
      blkLocations = fs.getFileBlockLocations(file, 0, length);
    }
    // 判断是否要进行切片（主要判断当前文件是否是压缩文件，有一些压缩文件时不能够进行切片）
    if (isSplitable(job, path)) {
      // 获取hdfs中数据块的大小
      long blockSize = file.getBlockSize();
      // 计算切片的大小--> 128M 默认情况下永远都是块大小
      long splitSize = computeSplitSize(blockSize, minSize, maxSize);
      // 内部方法
	  // protected long computeSplitSize(long blockSize, long minSize,
	  // long maxSize) {
	  // return Math.max(minSize, Math.min(maxSize, blockSize));
	  // }


	  // 判断当前的文件的剩余内容是否要继续切片 SPLIT\_SLOP = 1.1
	  // 判断公式：bytesRemaining)/splitSize > SPLIT\_SLOP
	  // 用文件的剩余大小/切片大小 > 1.1 才继续切片（这样做的目的是为了让我们每一个MapTask处理的数据更加均衡）
      long bytesRemaining = length;
      while (((double) bytesRemaining)/splitSize > SPLIT\_SLOP) {
        int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);
        splits.add(makeSplit(path, length-bytesRemaining, splitSize,
                    blkLocations[blkIndex].getHosts(),
                    blkLocations[blkIndex].getCachedHosts()));
        bytesRemaining -= splitSize;
      }
	  // 如果最后文件还有剩余且不足一个切片大小，最后再形成最后的一个切片
      if (bytesRemaining != 0) {
        int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);
        splits.add(makeSplit(path, length-bytesRemaining, bytesRemaining,
                   blkLocations[blkIndex].getHosts(),
                   blkLocations[blkIndex].getCachedHosts()));
      }
    } else { // not splitable
      if (LOG.isDebugEnabled()) {
        // Log only if the file is big enough to be splitted
        if (length > Math.min(file.getBlockSize(), minSize)) {
          LOG.debug("File is not splittable so no parallelization "
              + "is possible: " + file.getPath());
        }
      }
      splits.add(makeSplit(path, 0, length, blkLocations[0].getHosts(),
                  blkLocations[0].getCachedHosts()));
    }
  } else { 
    //Create empty hosts array for zero length files
    splits.add(makeSplit(path, 0, length, new String[0]));
  }
}
// Save the number of input files for metrics/loadgen
job.getConfiguration().setLong(NUM\_INPUT\_FILES, files.size());
sw.stop();
if (LOG.isDebugEnabled()) {
  LOG.debug("Total # of splits generated by getSplits: " + splits.size()
      + ", TimeTaken: " + sw.now(TimeUnit.MILLISECONDS));
}
return splits;

}



> 
> `Math.max(minSize, Math.min(maxSize, blockSize));`
> 
> 
> * `maxsize`，切片最大值，参数如果比blockSize小，则会让切片变小，而且就等于这个配置的这个参数的值
> * `minsize`，切片最小值，参数如果比blockSize大，则可以让切片的大小比blockSize还要大
> 
> 
> 


#### 1.2.2 TextInputFormat 读数据源码、机制


  

`TextInputFormat.java` 是`FileInputFormat.java` 的实现类，该文件中重写了抽象方法 `createRecordReader()`，实现读取数据的逻辑。


![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/36de46362e4f4b87a0a3561dc62464d3.png)


按行读取每条记录。键是存储该行在整个文件中的起始字节偏移量，`LongWritable`类型；值是这行的内容，不包括任何行终止符（换行符、回车符），`Text`类型。


![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/5e1d464fa0c64f479628b43ca695c7a8.png)


#### 1.2.3 CombineTextInputFormat 切片机制


  

框架默认的 `TextInputFormat` 切片机制是对任务按文件规划切片，不管文件多小，都会是一个单独的切片，都会交给一个 `MapTask`，这样如果有大量小文件，就会产生大量的`MapTask`，处理效率极其低下。


`CombineTextInputFormat.java` 也是 `FileInputFormat.java` 的实现类


* 适用场景
	+ 用于小文件过多的场景，它可以将多个小文件从逻辑上规划到一个切片中，这样，多个小文件就可以交给一个 `MapTask` 处理。
* 虚拟存储切片最大值设置
	+ `CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);// 4M`
	+ 虚拟存储切片最大值设置最好根据实际的小文件大小情况来设置具体的值。
* 切片机制
	+ 生成切片过程包括：虚拟存储过程和切片过程两部分


![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/e02a37e224ce44bf945ce17303c2993a.png)


（1）虚拟存储过程


将输入目录下所有文件大小，依次和设置的 `setMaxInputSplitSize` 值比较，如果不大于设置的最大值，逻辑上划分一个块。**如果输入文件大于设置的最大值且大于两倍，那么以最大值切割一块；当剩余数据大小超过设置的最大值且不大于最大值2倍，此时将文件均分成2个虚拟存储块（防止出现太小切片）**。



> 
> 例如 `setMaxInputSplitSize` 值为4M，输入文件大小为 8.02M，则先逻辑上分成一个  
>  4M。剩余的大小为4.02M，如果按照4M逻辑划分，就会出现 0.02M 的小的虚拟存储文件，所以将剩余的4.02M文件切分成（2.01M和2.01M）两个文件。
> 
> 
> 


（2）切片过程


a. 判断虚拟存储的文件大小是否大于 `setMaxInputSplitSize` 值，大于 则单独形成一个切片。


b. 如果不大于则跟下一个虚拟存储文件进行合并，共同形成一个切片。


c. 测试举例：有4个小文件大小分别为 1.7M、5.1M、3.4M 以及 6.8M 这四个小文件，则虚拟存储之后形成6个文件块，大小分别为：


1.7M，（2.55M、2.55M），3.4M以及（3.4M、3.4M）


最终会形成3个切片，大小分别为：


（1.7+2.55）M，（2.55+3.4）M，（3.4+3.4）M


（3）案例实操


将输入的大量小文件合并成一个切片统一处理。


准备4个小文件


![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/9fb78fd6f80d4a4f9eefc58d49fb6d61.png)


a. 不做任何处理，运行前面的 WordCount 案例程序，观察切片个数为 4 。


b. 在`WordcountDriver.java`中增加如下代码，运行程序，并观察运行的切片个数为 3。

// 如果不设置InputFormat，它默认用的是TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class);

//虚拟存储切片最大值设置4M
CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);


c. 在 `WordcountDriver.java` 中增加如下代码，运行程序，并观察运行的切片个数为 1

// 如果不设置InputFormat，它默认用的是TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class);

//虚拟存储切片最大值设置20M
CombineTextInputFormat.setMaxInputSplitSize(job, 20971520);


### 1.3 OutputFormat 数据输出


#### 1.3.1 OutputFormat 实现类


  

OutputFormat 是 MapReduce 输出的基类，所有 MapReduce 输出都实现了 OutputFormat 接口，以下是几种常见的OutputFormat 实现类。


* TextOutputFormat ：是默认的输出格式，它把每条记录写为文本行，它的键和值可以是任意类型，因为TextOutputFormat 可以调用 toString() 方法把它们转为字符串。
* SequenceOutputFormat ：将 SequenceOutputFormat 的输出作为后续 MapReduce的输入，这便是一种好的输出格式。因为它的它的格式紧凑，很容易被压缩。
* 自定义OutputFormat ：根据用户的需求，自定义输出格式。



> 
> OutputFormat 是 FileOutputFormat 的父类，FileOutputFormat 又是 TextOutputFormat 的父类。
> 
> 
> 


#### 1.3.2 自定义 OutputFormat


  

（1） 需求


过滤输入的 log 日志，包含atguigu的网站输出到 atguigu.log，不包含 atguigu 的网站输出到 other.log。


![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/e67832c112384946a7141bed9203eb22.png)  
 `log.txt`

http://www.baidu.com
http://www.google.com
http://cn.bing.com
http://www.atguigu.com
http://www.sohu.com
http://www.sina.com
http://www.sin2a.com
http://www.sin2desa.com
http://www.sindsafa.com


（2）代码编写


`LogMapper.java`

package com.huwei.mr.outputformat;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class LogMapper extends Mapper<LongWritable, Text, Text, NullWritable> {
@Override
protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, NullWritable>.Context context) throws IOException, InterruptedException {
// 直接写出
context.write(value, NullWritable.get());
}
}


`LogReducer.java`

package com.huwei.mr.outputformat;

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class LogReducer extends Reducer<Text, NullWritable, Text, NullWritable> {
@Override
protected void reduce(Text key, Iterable values, Reducer<Text, NullWritable, Text, NullWritable>.Context context) throws IOException, InterruptedException {
// 遍历直接写出
for (NullWritable value : values) {
context.write(key, NullWritable.get());
}
}
}


自定义 `LogOutputFormat.java`

package com.huwei.mr.outputformat;

import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;
/**
* 自定义的LogOutputFormat需要继承Hadoop提供的OutputFormat
*/
public class LogOutputFormat extends FileOutputFormat<Text, NullWritable> {
/**
* 返回一个RecordWriter对象
* @param job
* @return
* @throws IOException
* @throws InterruptedException
*/
@Override
public RecordWriter<Text, NullWritable> getRecordWriter(TaskAttemptContext job) throws IOException, InterruptedException {
LogRecordWriter lrw = new LogRecordWriter(job);
return lrw;
}
}


自定义的 `LogRecordWriter.java`

package com.huwei.mr.outputformat;

import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;

import java.io.IOException;

/**
* 自定义的LogRecordWriter需要继承Hadoop提供的RecordWriter
*/
public class LogRecordWriter extends RecordWriter<Text, NullWritable> {
// 定义输出路径
private String atguiguPath = “E:\hadoop\out\logs\atguigu.txt”;
private String otherPath = “E:\hadoop\out\logs\other.txt”;
private FileSystem fs;
private FSDataOutputStream atguigu;
private FSDataOutputStream other;

/\*\*

* 初始化工作
*
* @param job
*/
public LogRecordWriter(TaskAttemptContext job) throws IOException {
// 获取Hadoop文件系统对象
fs = FileSystem.get(job.getConfiguration());
// 获取输出流
atguigu = fs.create(new Path(atguiguPath));
// 获取输出流
other = fs.create(new Path(otherPath));

}

/\*\*

* 实现数据写出的逻辑
*
* @param text
* @param nullWritable
* @throws IOException
* @throws InterruptedException
*/
@Override
public void write(Text text, NullWritable nullWritable) throws IOException, InterruptedException {
// 获取当前输入的数据
String logData = text.toString();
if (logData.contains(“atguigu”)) {
atguigu.writeBytes(logData + “\n”);
} else {
other.writeBytes(logData + “\n”);
}

}

/\*\*

* 关闭资源
*
* @param taskAttemptContext
* @throws IOException
* @throws InterruptedException
*/
@Override
public void close(TaskAttemptContext taskAttemptContext) throws IOException, InterruptedException {
IOUtils.closeStream(atguigu);
IOUtils.closeStream(other);
}
}


`LogDriver.java`

package com.huwei.mr.outputformat;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class LogDriver {
public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {
// 声明配置对象
Configuration conf = new Configuration();
// 声明Job对象
Job job = Job.getInstance(conf);

    // 指定当前Job的驱动类
    job.setJarByClass(LogDriver.class);
    // 指定当前Job的Mapper
    job.setMapperClass(LogMapper.class);
    // 指定当前Job的Reducer
    job.setReducerClass(LogReducer.class);

    // 指定Map端输出数据的key的类型和输出数据value的类型
    job.setMapOutputKeyClass(Text.class);
    job.setMapOutputValueClass(NullWritable.class);
    // 指定最终（Reduce端）输出数据的key的类型和输出数据value的类型
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(NullWritable.class);

    // 指定自定义的 OutputFormat
    job.setOutputFormatClass(LogOutputFormat.class);

    // 指定输入数据的路径和输出数据的路径
    FileInputFormat.setInputPaths(job,new Path("E:\\hadoop\\in\\log"));
    FileOutputFormat.setOutputPath(job,new Path("E:\\hadoop\\out\\log"));

    // 提交Job
    // 参数代表是否监控提交过程
    job.waitForCompletion(true);
}

}



> 
> 如何实现OutputFormat自定义：
> 
> 
> * 自定义一个 OutputFormat 类，继承Hadoop提供的OutputFormat，在该类中实现  
>  getRecordWriter() ,返回一个RecordWriter
> * 自定义一个 RecordWriter 并且继承Hadoop提供的RecordWriter类，在该类中  
>  重写 write() 和 close() 在这些方法中完成自定义输出。
> 
> 
> 


## 2 MapReduce 框架原理


### 2.1 MapTask 工作机制


  

![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/96703d2f740c4dd58380a265db6b6a2f.png)


（1）Read 阶段：MapTask 通过 InputFormat 获得的 RecordReader，从输入InputSplit 中解析出一个个key/value。


（2）Map 阶段：该节点主要是将解析出的key/value交给用户编写map()函数处理，并产生一系列新的 key/value。


（3）Collect 收集阶段：在用户编写 map() 函数中，当数据处理完成后，一般会调用 `OutputCollector.collect()` 输出结果。在该函数内部，它会将生成的 key/value 分区（调用Partitioner），并写入一个环形内存缓冲区中。


（4）Spill 阶段：即“溢写”，当环形缓冲区满后，MapReduce 会将数据写到本地磁盘上，**生成一个临时文件**。需要注意的是，将数据写入本地磁盘之前，先要对数据进行一次本地排序，并在必要时对数据进行合并、压缩等操作。



> 
> 溢写阶段详情：
> 
> 
> * 步骤1：利用快速排序算法对缓存区内的数据进行排序，排序方式是，先按照分区编号 Partition 进行排序，然后按照 key 进行排序。这样，经过排序后，数据以分区为单位聚集在一起，且同一分区内所有数据按照key有序。
> * 步骤2：按照分区编号由小到大依次将每个分区中的数据写入任务工作目录下的临时文件output/spillN.out（N表示当前溢写次数）中。如果用户设置了Combiner，则写入文件之前，对每个分区中的数据进行一次聚集操作。
> * 步骤3：将分区数据的元信息写到内存索引数据结构 SpillRecord 中，其中每个分区的元信息包括在临时文件中的偏移量、压缩前数据大小和压缩后数据大小。如果当前内存索引大小超过1MB，则将内存索引写到文件 output/spillN.out.index 中。
> 
> 
> 


（5）Merge阶段：当所有数据处理完成后，MapTask 对所有临时文件进行一次合并，以确保最终只会生成一个数据文件。


当所有数据处理完后，MapTask 会将所有临时文件合并成一个大文件，并保存到文件`output/file.out` 中，同时生成相应的索引文件 `output/file.out.index`。


在进行文件合并过程中，MapTask 以分区为单位进行合并。对于某个分区，它将采用多轮递归合并的方式。每轮合并 `mapreduce.task.io.sort.factor`（默认10）个文件，并将产生的文件重新加入待合并列表中，对文件排序后，重复以上过程，直到最终得到一个大文件。


让每个 MapTask 最终只生成一个数据文件，可避免同时打开大量文件和同时读取大量小文件产生的随机读取带来的开销。


### 2.2 ReduceTask 工作机制


  

![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/8e4dcc4dbdc8488aa82251964f42a334.png)


（1）Copy 阶段：ReduceTask 从各个 MapTask 上远程拷贝一片数据，并针对某一片数据，如果其大小超过一定阈值，则写到磁盘上，否则直接放到内存中。


（2）Merge 阶段：在远程拷贝数据的同时，ReduceTask 启动了两个后台线程对内存和磁盘上的文件进行合并，以防止内存使用过多或磁盘上文件过多。


（3）Sort 阶段：按照 MapReduce 语义，用户编写 reduce() 函数输入数据是按 key 进行聚集的一组数据。为了将 key 相同的数据聚在一起，Hadoop 采用了基于排序的策略。由于各个 MapTask 已经实现对自己的处理结果进行了局部排序，因此，ReduceTask 只需对所有数据进行一次归并排序即可。


（4）Reduce 阶段：对排序后的键值对调用 reduce() 方法，键相同的键值对调用一次reduce() 方法。


（5）Write 阶段：reduce()函数将计算结果写到 HDFS上。


### 2.3 MapTask 并行度决定机制


  

MapTask的并行度决定Map阶段的任务处理并发度，进而影响到整个Job的处理速度。


数据块：Block是 HDFS 物理上把数据分成一块一块。数据块是 HDFS 存储数据单位。


数据切片：数据切片只是在逻辑上对输入进行分片，并不会在磁盘上将其切分成片进行存储。数据切片是 MapReduce 程序计算输入数据的单位，一个切片会对应启动一个MapTask。


![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/005c300f2b8b44dd82b7476a22ef9a65.png)


* 一个Job的Map阶段并行度（MapTask ）由客户端在提交Job时的切片数决定；（一个切片就会产生一个MapTask并行处理）
* 默认情况下，`切片大小=BlockSize=128M`；（这样设计的目的是为了避免将来切片读取数据的时候有**跨机器读取数据** 的情况，这样效率是很低的）
* 切片时不考虑整体数据集，而是逐个针对每一个文件单独切片


### 2.4 ReduceTask 并行度决定机制


  


> 
> 回顾：MapTask并行度由切片个数决定，切片个数由输入文件和切片规则决定。  
>  思考：ReduceTask并行度由谁决定？
> 
> 
> 


ReduceTask 的并行度同样影响整个Job的执行并发度和执行效率，但与 MapTask 的并发数由切片数决定不同，ReduceTask 数量的决定是可以直接手动设置的。

// 默认值是1，手动设置为4
job.setNumReduceTasks(4);


（1）ReduceTask = 0，表示没有 Reduce 阶段，输出文件的个数和 Map 个数一致。


（2）ReduceTask 的默认值就是1，所以输出文件的个数为1个。


（3）如果数据分布不均匀，就有可能在Reduce阶段产生**数据倾斜**。


（4）ReduceTask 数量不是任意设置的，还要考虑业务逻辑需求，在有些情况下，需要计算全局汇总结果，就只能有一个ReduceTask 。


（5）具体多少个ReduceTask ，需要根据集群的性能而定。


（6）如果分区数不是1，但是 ReduceTask 为1，是否执行分区过程？答案是：不执行，因为在 MapTask 的源码中，执行分区的前提是先判断 ReduceNum 是否大于1，不大于1则不执行。


### 2.5 Shuffle 机制


#### 2.5.1 Shuffle 机制流程


  

Map 方法之后，Reduce 方法之前的数据处理过程称之为 Shuffle 。


![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/a161acfec3d044a390f2450d129bc8c0.png)  
   



注意：


* 图中的`Map1`方法不要理解为 Mapper 中重写的 map 方法，把它看成一个 `MapTask` 的执行，一个 `MapTask` 是会调用多个 map 方法的；
* 环形缓冲区（默认大小为100M）其实就是在内存中，其中每一个分区内部所使用的排序算法是快速排序；
* 每个相同分区之间采用的是归并排序，在磁盘上进行
* 当环形缓冲区的数据量达到自身容量的 80%，会发生第一次溢写


Shuffle 机制流程


（1）MapTask收集我们的map()方法输出的 kv 对，放到内存缓冲区中


（2）从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件


（3）多个溢出文件会被合并成大的溢出文件


（4）在溢出过程及合并的过程中，都要调用Partitioner进行分区和针对key进行排序


（5）ReduceTask根据自己的分区号，去各个MapTask机器上取相应的结果分区数据


（6）ReduceTask会抓取到同一个分区的来自不同MapTask的结果文件，ReduceTask会将这些文件再进行合并（归并排序）


（7）合并成大文件后，Shuffle的过程也就结束了，后面进入ReduceTask的逻辑运算过程（从文件中取出一个一个的键值对Group，调用用户自定义的reduce()方法）



> 
> 注意：
> 
> 
> * Shuffle中的缓冲区大小会影响到 MapReduce  
>  程序的执行效率，原则上说，缓冲区越大，则可以容纳更多的数据并减少写入磁盘的次数，磁盘IO的次数越少，执行速度就越快。
> * 缓冲区的大小可以通过参数调整，参数：`mapreduce.task.io.sort.mb` 默认100M。
> 
> 
> 


#### 2.5.2 Paratition 分区


  


> 
> 要求将统计结果按照条件输出到不同的文件（分区）中。比如：将统计结果按照手机归属地不同省份输出到不同的文件中（分区）。
> 
> 
> 


（1）Hadoop默认的分区规则源码解析


* 定位 MapTask 的 map 方法中 `context.write(outk, outv)`;
* 跟到 `write(outk, outv)` 中进入到 `ChainMapContextImpl` 类的实现中

public void write(KEYOUT key, VALUEOUT value) throws IOException,
InterruptedException {
output.write(key, value);
}


* 跟到 `output.write(key, value)` 内部实现类 `NewOutputCollector`

public void write(K key, V value) throws IOException, InterruptedException {
collector.collect(key, value,
partitioner.getPartition(key, value, partitions));
}


重点理解 `partitioner.getPartition(key, value, partitions);`


* 跟进默认的分区规则实现类 `HashPartitioner`

public int getPartition(K key, V value,
int numReduceTasks) {
// 根据当前的key的hashCode值和ReduceTask的数量进行取余操作
// 获取到的值就是当前kv所属的分区编号。
return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
}


![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/017d495e74e24ee0ab2eda623816d3b1.png)


`Partitioner`是 Hadoop 的分区器对象，负责给 Map 阶段输出数据选择分区的功能。


默认分区是根据 `key` 的 `hashCode` 对 `ReduceTask` 的个数取模得到的数字编号，这个分区编号在Job提交的时候就已经定义好了。用户没法控制哪个 `key` 存储到哪个分区。


（2）自定义分区规则


将统计结果按照手机归属地不同省份输出到不同文件（分区）中。


使用在 [大数据技术学习笔记（五）—— MapReduce（1）]( )`2.3`小节案例的数据 `phone_data.txt`，手机号136、137、138、139开头都分别放到一个独立的4个文件中，其他开头的放到一个文件中。


在案例 `2.3` 的基础上，增加一个分区类

//自定义一个分区器对象，需要继承Hadoop提供的Partitioner对象
//这里的泛型就是Mapper输出的泛型
public class FlowPartitioner extends Partitioner<Text, FlowBean> {
/**
* 定义当前kv所属分区的规则
*
* @param text the key to be partioned.
* @param flowBean the entry value.
* @param numPartitions the total number of partitions.
* 分区
* 136 ——> 0
* 137 ——> 1
* 138 ——> 2
* 139 ——> 3
* 其他 ——> 4
*/
@Override
public int getPartition(Text text, FlowBean flowBean, int numPartitions) {
int phonePartition;
// 获取手机号
String phoneNum = text.toString();
if(phoneNum.startsWith(“136”)){
phonePartition=0;
} else if (phoneNum.startsWith(“137”)) {
phonePartition=1;
}else if (phoneNum.startsWith(“138”)) {
phonePartition=2;
}else if (phoneNum.startsWith(“139”)) {
phonePartition=3;
}else {
phonePartition=4;
}
return phonePartition;
}
}


在驱动函数中增加自定义数据分区设置和 ReduceTask 设置

// 指定ReduceTask的数量
job.setNumReduceTasks(5);
// 指定自定义的分区器对象实现
job.setPartitionerClass(FlowPartitioner.class);



> 
> 分区器使用时注意事项
> 
> 
> * 当 ReduceTask 的数量（设置的分区数） > getPartition的结果数（实际用到的分区数）， 此时会生成空的分区文件
> * 当 ReduceTask 的数量（设置的分区数） < getPartition的结果数（实际用到的分区数）， 导致有一部分数据无处安放，此时会报错
> * 当 ReduceTask 的数量（设置的分区数） = 1， 则不管 MapTask 端输出多少个分区文件，最终结果文件会输出到一个文件`part-r-00000`中
> * 分区编号生成的规则：根据指定的ReduceTask的数量 从 0 开始，依次累加。
> 
> 
> 


#### 2.5.3 WritableComparable 排序


  

排序是MR最重要的操作之一。


MapTask 和 ReduceTask 均会对数据按照 key 进行排序。该操作属于 Hadoop 的默认行为。任何应用程序中的数据均会被排序，而不管逻辑上是否需要。


默认排序是按照字典顺序排序，且实现该排序的方法是快速排序。


对于 MapTask，它会将处理的结果暂时存放到环形缓冲区中，当环形缓冲区使用率达到一定的阈值后，再**对缓冲区中的数据进行一次快速排序**，并将这些有序数据溢写到磁盘上，而当数据处理完毕后，它会**对磁盘上所有的文件进行归并排序**。


对于ReduceTask，它从每个 MapTask上远程拷贝相应的数据文件，如果文件大小超过一定阈值，则溢写到磁盘上，否则存储在内存中。如果磁盘上文件数目达到一定的阈值，则进行一次归并排序以生成一个更大的文件；如果内存中文件大小或文件数目超过一定的阈值，则进行一次合并后将数据溢写到磁盘上。当所有的数据拷贝完成后，**ReduceTask统一对内存和磁盘上所有的数据进行一次归并排序**。


排序分类


* 部分排序：MapReduce根据输入记录的键对数据集排序。保证每个输出文件内部有序。
* 全排序：最终的输出结果只有一个文件，且文件内部有序。实现方式是只设置一个ReduceTask。但该方法在处理大型文件时效率极低，因为一台机器处理所有的文件，完全丧失了 MapReduce 所提供的并行架构。
* 二次排序：在自定义排序过程中，如果 compareTo 中的判断条件为两个即为二次排序。


这里仍然使用在 [大数据技术学习笔记（五）—— MapReduce（1）]( )`2.3`小节案例


代码编写


`FlowBean.java`

package com.huwei.mr.sort;

import org.apache.hadoop.io.WritableComparable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

public class FlowBean implements WritableComparable {

private Integer upFlow;
private Integer downFlow;
private Integer sumFlow;

// 默认有无参构造方法

public Integer getUpFlow() {
    return upFlow;
}

public void setUpFlow(Integer upFlow) {
    this.upFlow = upFlow;
}

public Integer getDownFlow() {
    return downFlow;
}

public void setDownFlow(Integer downFlow) {
    this.downFlow = downFlow;
}

public Integer getSumFlow() {
    return sumFlow;
}

public void setSumFlow(Integer sumFlow) {
    this.sumFlow = sumFlow;
}

@Override
public String toString() {
    return "FlowBean{" +
            "upFlow=" + upFlow +
            ", downFlow=" + downFlow +
            ", sumFlow=" + sumFlow +
            '}';
}

/\*\*

* 序列化方法
*/
@Override
public void write(DataOutput dataOutput) throws IOException {
dataOutput.writeInt(upFlow);
dataOutput.writeInt(downFlow);
dataOutput.writeInt(sumFlow);
}

/\*\*

* 反序列化方法
* （顺序要和序列化方法一致）
*/
@Override
public void readFields(DataInput dataInput) throws IOException {
upFlow = dataInput.readInt();
downFlow = dataInput.readInt();
sumFlow = dataInput.readInt();
}

// 计算上下行流量之和
public void setSumFlow() {
    this.sumFlow = this.upFlow + this.downFlow;
}

/\*\*

* 自定义排序规则
* 需求：根据总流量倒序
* @param o the object to be compared.
* @return
*/
@Override
public int compareTo(FlowBean o) {
//按照总流量比较,倒序排列
if(this.sumFlow > o.sumFlow){
return -1;
}else if(this.sumFlow < o.sumFlow){
return 1;
}else {
return 0;
}

// return -this.getSumFlow().compareTo(o.getSumFlow());

}



> 
> 注意：在`public class FlowBean implements WritableComparable<FlowBean>`中我将，`WritableComparable`写成`Writable, Comparable`，出现ClassCastException报错。参考[MapReduce——ClassCastException报错如何解决]( )中方法二
> 
> 
> 


#### 2.5.4 Combiner 合并


  

Combiner 是 MR 程序中 Mapper 和 Reducer 之外的一种组件，Combiner 的父类就是 Reducer 。


Combiner 和 Reducer 的区别就在于运行的位置，


* Combiner 是在每一个 MapTask 所在的节点运行
* Reducer 是接收全局所有 Mapper 的输出结果。


Combiner 的意义就是对每一个 MapTask 的输出进行局部汇总，以减小网络的传输量。总的来说，就是为了减轻 ReduceTask 的压力，减少了IO开销，提升 MR 的运行效率。



> 
> 注意： Combiner 能够运用的前提是不能影响最终的业务逻辑，而且， Combiner 的输出 kv 应该和 Reducer 的输入 kv 类型要对应起来。
> 
> 
> 


以 WordCount 案例为例


（1）增加一个WordCountCombiner类继承Reducer

package com.huwei.mr.combiner;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
* 自定义Combiner类需要继承Hadoop提供的Reducer类
* 注意：Combiner流程一定发生在Map阶段
*/
public class WordCountCombiner extends Reducer<Text, IntWritable, Text, IntWritable>{
private Text outk = new Text();
private IntWritable outv = new IntWritable();

@Override
protected void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {
    int total = 0;
    // 遍历values
    for (IntWritable value : values) {
        // 对value累加，输出结果
        total += value.get();
    }
    // 封装key和value
    outk.set(key);
    outv.set(total);
    context.write(outk, outv);
}

}


（2）在WordcountDriver驱动类中指定 Combiner

// 指定自定义的Combiner类
job.setCombinerClass(WordCountCombiner.class);

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

ds Reducer<Text, IntWritable, Text, IntWritable>{
private Text outk = new Text();
private IntWritable outv = new IntWritable();

@Override
protected void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {
    int total = 0;
    // 遍历values
    for (IntWritable value : values) {
        // 对value累加，输出结果
        total += value.get();
    }
    // 封装key和value
    outk.set(key);
    outv.set(total);
    context.write(outk, outv);
}

}


（2）在WordcountDriver驱动类中指定 Combiner

// 指定自定义的Combiner类
job.setCombinerClass(WordCountCombiner.class);

[外链图片转存中…(img-UORImixm-1715289236238)]
[外链图片转存中…(img-1vvkMdaR-1715289236238)]

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取