目的:
1、从根本上解决reduce时的数据倾斜问题
2、从根本上解决基于优先级的并发调度问题
1、从根本上解决reduce时的数据倾斜问题
2、从根本上解决基于优先级的并发调度问题
Map-Balance-Reduce (简称MBR)是在现有Map-Reduce模型基础之上的改进,以从根本上解决reduce倾斜问题,不用预先分析KEY的分布,编程接口在map和reduce之外,增加balance,但是只有在不均衡的时候balance才会被调用到。
如果某个Split大于设定的值,则再分割,如果某个Split小于指定的值,则和其它的合并(只需要逻辑上的合并,不需要物理上合并,这样对性能不会有影响)。