MepReduce

最新推荐文章于 2023-05-17 21:39:54 发布

万古风月

最新推荐文章于 2023-05-17 21:39:54 发布

阅读量129

点赞数

文章标签： hadoop

本文链接：https://blog.csdn.net/N1_WanGuFengYue/article/details/124973521

版权

# MepReduce

## FileInputFormat

FileInputFormat
TextInputFormat
根据文件的数量以及大小进行逻辑切片，其切片的数量就是MapTask启动的数量

## job.setNumReduceTasks(2)

指明需要两个ReduceTask完成数据计算
同时，需要针对每条数据进行分区的标记
默认情况下：
会根据key的值进行分区，
key.hashcode() % 分区数 

自定义的情况下：
需要自己构建一个 extends Partitioner的工具类，并重写其中的 getPartition()方法，其返回值即为分区号。注意：分区号一定是小于分区数（ReduceTask数量）

## 环形缓冲区的意义

1. 减少磁盘IO，批量的对数据进行溢写，提升效率。
2. 需要对MapTask中输出的数据进行排序（快排 Arrays.sort）。

每个生成出来的环形缓冲区默认 100M大小，但可以自定义；
每当环形缓冲区被写入了80% 的容量（80M），会触发溢写操作。

## spill溢写

1. 先排序，再写出。
2. 处理的同一批数据，如果超出了80M，那么会生成多个溢写临时文件，是由于输出的文件已经不能直接排序了，不如直接输出成多个文件，最后进行读取合并（归并排序）
3. 在输出到文件的时候，会判断此 k - v 的分区，并根据分区号放到指定的文件中

### CombinerClass

在溢写临时文件进行合并的时候，会有两种情况发生，
分别是设置了Combiner以及没有设置Combiner

job.setCombinerClass(XxxxxReducer.class)

如果想要复用已经写好的Reducer，则Reducer需要输入的kv类型和输出的kv类型一致，不然报错。

## Merge

### key排序

### 按key分组

### 相同的key对应的value进行聚合

## Shuff

### 站在数据角度，k-v从Mapper离开，一直到传给Reducer方法，中间过程，叫做shuffle

## MapReduce排序次数

第一次: MapTask阶段环形缓冲区开始spill溢写，缓冲区每次溢写，发生一轮排序。
第二次: Maptask多次溢写产生的多个溢写文件(单个文件每部k有序)，要做归并排序，maptask每个分区内，只保留1个文件(key有序)
第三次: ReduceTask-0汇总多个MapTask的(对应分区-0)结果文件，归并排序(合并排序)