# MepReduce ## FileInputFormat FileInputFormat TextInputFormat 根据文件的数量以及大小进行逻辑切片,其切片的数量就是MapTask启动的数量 ## job.setNumReduceTasks(2) 指明需要两个ReduceTask完成数据计算 同时,需要针对每条数据进行分区的标记 默认情况下: 会根据key的值进行分区, key.hashcode() % 分区数 自定义的情况下: 需要自己构建一个 extends Partitioner的工具类,并重写其中的 getPartition()方法,其返回值即为分区号。注意:分区号一定是小于分区数(ReduceTask数量) ## 环形缓冲区的意义 1. 减少磁盘IO,批量的对数据进行溢写,提升效率。 2. 需要对MapTask中输出的数据进行排序(快排 Arrays.sort)。 每个生成出来的环形缓冲区默认 100M大小,但可以自定义; 每当环形缓冲区被写入了80% 的容量(80M),会触发溢写操作。 ## spill溢写 1. 先排序,再写出。 2. 处理的同一批数据,如果超出了80M,那么会生成多个溢写临时文件,是由于输出的文件已经不能直接排序了,不如直接输出成多个文件,最后进行读取合并(归并排序) 3. 在输出到文件的时候,会判断此 k - v 的分区,并根据分区号放到指定的文件中 ### CombinerClass 在溢写临时文件进行合并的时候,会有两种情况发生, 分别是设置了Combiner以及没有设置Combiner job.setCombinerClass(XxxxxReducer.class) 如果想要复用已经写好的Reducer,则Reducer需要输入的kv类型和输出的kv类型一致,不然报错。 ## Merge ### key排序 ### 按key分组 ### 相同的key对应的value进行聚合 ## Shuff ### 站在数据角度,k-v从Mapper离开,一直到传给Reducer方法,中间过程,叫做shuffle ## MapReduce排序次数 第一次: MapTask阶段环形缓冲区开始spill溢写,缓冲区每次溢写,发生一轮排序。 第二次: Maptask多次溢写产生的多个溢写文件(单个文件每部k有序),要做归并排序,maptask每个分区内,只保留1个文件(key有序) 第三次: ReduceTask-0汇总多个MapTask的(对应分区-0)结果文件,归并排序(合并排序)
MepReduce
最新推荐文章于 2023-05-17 21:39:54 发布