Combiner定义:是shuffle过程里map端shuffle中磁盘缓冲区里的操作,它不是每一个shuffle过程都会有的。
在map端执行了部分的reduce的操作,目的是为了分担reduce端的计算压力,解决reduce端的数据倾斜问题。
姓氏总和问题:
以Combiner的方式可以先对每组的数据先合并,然后在整体合并,减少了reduce的计算量。
Combiner
最新推荐文章于 2021-12-08 17:54:02 发布
Combiner定义:是shuffle过程里map端shuffle中磁盘缓冲区里的操作,它不是每一个shuffle过程都会有的。
在map端执行了部分的reduce的操作,目的是为了分担reduce端的计算压力,解决reduce端的数据倾斜问题。
姓氏总和问题:
以Combiner的方式可以先对每组的数据先合并,然后在整体合并,减少了reduce的计算量。