MepReduce

# MepReduce

## FileInputFormat

FileInputFormat
TextInputFormat
根据文件的数量以及大小进行逻辑切片,其切片的数量就是MapTask启动的数量

## job.setNumReduceTasks(2)

指明需要两个ReduceTask完成数据计算
同时,需要针对每条数据进行分区的标记
默认情况下:
会根据key的值进行分区,
key.hashcode() % 分区数 

自定义的情况下:
需要自己构建一个 extends Partitioner的工具类,并重写其中的 getPartition()方法,其返回值即为分区号。注意:分区号一定是小于分区数(ReduceTask数量)

## 环形缓冲区的意义

1. 减少磁盘IO,批量的对数据进行溢写,提升效率。
2. 需要对MapTask中输出的数据进行排序(快排 Arrays.sort)。

每个生成出来的环形缓冲区默认 100M大小,但可以自定义;
每当环形缓冲区被写入了80% 的容量(80M),会触发溢写操作。

## spill溢写

1. 先排序,再写出。
2. 处理的同一批数据,如果超出了80M,那么会生成多个溢写临时文件,是由于输出的文件已经不能直接排序了,不如直接输出成多个文件,最后进行读取合并(归并排序)
3. 在输出到文件的时候,会判断此 k - v 的分区,并根据分区号放到指定的文件中

### CombinerClass

在溢写临时文件进行合并的时候,会有两种情况发生,
分别是设置了Combiner以及没有设置Combiner

job.setCombinerClass(XxxxxReducer.class)

如果想要复用已经写好的Reducer,则Reducer需要输入的kv类型和输出的kv类型一致,不然报错。

## Merge

### key排序

### 按key分组

### 相同的key对应的value进行聚合

## Shuff

### 站在数据角度,k-v从Mapper离开,一直到传给Reducer方法,中间过程,叫做shuffle

## MapReduce排序次数

第一次: MapTask阶段环形缓冲区开始spill溢写,缓冲区每次溢写,发生一轮排序。
第二次: Maptask多次溢写产生的多个溢写文件(单个文件每部k有序),要做归并排序,maptask每个分区内,只保留1个文件(key有序)
第三次: ReduceTask-0汇总多个MapTask的(对应分区-0)结果文件,归并排序(合并排序)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值