MapReduce过程中setPartitionerClass、setSortComparatorClass和setGroupingComparatorClass三者关系

最新推荐文章于 2022-10-03 22:50:00 发布

温一杯酒

最新推荐文章于 2022-10-03 22:50:00 发布

阅读量1.7k

点赞数 1

分类专栏：大数据

大数据专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Map首先将输出写到环形缓存当中，开始spill过程：
job.setPartitionerClass(PartitionClass.class);
【按key分区】map阶段最后调用。对key取hash值(或其它处理)，指定进入哪一个reduce

job.setSortComparatorClass(SortComparator.class);
【按key排序】每个分区内，对键或键的部分进行排序，保证分区内局部有序；

job.setGroupingComparatorClass(Grouptail.class);
【按key分组】构造一个key对应的value迭代器。同一分区中满足同组条件（可以是不同的key）的进入同一个Interator，执行一次reduce方法；

partiton是为了完成在shuffle阶段使用哪个reducetask。groupComparator是为了在一个reducetask下区分key的聚合。
举个栗子，在map阶段输出结果为1，一，2，二。设置reducetask数量为2，名字为r1，r2。
此时想把1，一，交给r1处理。2，二，交给r2处理。就需要自定义partiton通过返回值来完成。
但是1，一虽然进入了r1。但是r1，并不认为两者是相同的，也就是在输出的结果上并没有放在一行，而是两行。
如果想让输出结果放到一行，就需要重新定义groupComparator组件。
 ps：一个reducetask会输出一个文件。一个reduce阶段的key对应文件中的一行

https://blog.csdn.net/qq_20641565/article/details/65448582

进入同一个reduce的key是按照顺序排好的，该类使得：
如果连续（注意，一定连续）的两条或多条记录满足同组（即compare方法返回0）的条件，
即使key不相同，他们的value也会进入同一个values,执行一个reduce方法。
相反，如果原来key相同，但是并不满足同组的条件，他们的value也不会进入一个values。
最后返回的key是：满足这些条件的一组key中排在最后的那个。

详细讲解
尚硅谷
 详细讲解MapReduce过程

在这里插入图片描述

温一杯酒

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
MapReduce过程中setPartitionerClass、setSortComparatorClass和setGroupingComparatorClass三者关系

job.setPartitionerClass(PartitionClass.class);对key取hash值(或其它处理)，指定进入哪一个reducejob.setGroupingComparatorClass(Grouptail.class);满足同组条件的进入同一个Interator，执行同一个reduce方法；job.setSortComparatorClass(SortComp...
复制链接

扫一扫

专栏目录