2.3 Reduce任务
Reduce任务是一个数据聚合的步骤。如果Reduce任务的数量没有指定,默认值为1。只执行1个Reduce,可能会面临这个Reduce节点负载过大的风险,而使用过多的Reduce任务则意味着复杂的洗牌处理(shuffle),并使输出文件的数量激增,从而对NameNode造成很大的压力。想要确定一个最优的Reduce任务的数量,关键是要理解数据分布和分片函数。
Reduce任务是一个数据聚合的步骤。如果Reduce任务的数量没有指定,默认值为1。只执行1个Reduce,可能会面临这个Reduce节点负载过大的风险,而使用过多的Reduce任务则意味着复杂的洗牌处理(shuffle),并使输出文件的数量激增,从而对NameNode造成很大的压力。想要确定一个最优的Reduce任务的数量,关键是要理解数据分布和分片函数。