map数和reduce数目

最新推荐文章于 2023-07-10 12:06:44 发布

weixin_34378922

最新推荐文章于 2023-07-10 12:06:44 发布

阅读量96

点赞数

文章标签： python

原文链接：https://my.oschina.net/u/2842177/blog/1559696

版权

2019独角兽企业重金招聘Python工程师标准>>>

需要多少个Map？

Map的数目通常是由输入数据的大小决定的，一般就是所有输入文件的总块（block）数。

Map正常的并行规模大致是每个节点（node）大约10到100个map，对于CPU 消耗较小的map任务可以设到300个左右。由于每个任务初始化需要一定的时间，因此，比较合理的情况是map执行的时间至少超过1分钟。

这样，如果你输入10TB的数据，每个块（block）的大小是128MB，你将需要大约82,000个map来完成任务，除非使用 setNumMapTasks(int)（注意：这里仅仅是对框架进行了一个提示(hint)，实际决定因素见这里）将这个数值设置得更高。

Reducer的个数取决于用户设置，用户通过JobConf.setNumReduceTasks(int)来设置。

总的来说，Reducer的实现需要通过重写JobConfigurable.configure(JobConf)方法，这个方法需要传递一个JobConf参数，目的是完成Reducer的初始化工作。然后，框架为成组的输入数据中的每个<key, (list of values)>对调用一次 reduce(WritableComparable, Iterator, OutputCollector, Reporter)方法。之后，应用程序可以通过重写Closeable.close()来执行相应的清理工作。

Reducer有3个主要阶段：shuffle、sort和reduce。

Shuffle

reducer的输入对应的是mapper的已排序的输出。

Sort

框架在此阶段根据输入key的值对reducer的输入进行分组（因为不同mapper的输出中可能会有相同的key）;

Shuffle和sort两个阶段是同时进行的；map的输出也是边取回边合并的。

Secondary Sort

如果需要中间过程对key的分组规则和reduce前对key的分组规则不同，那么可以通过 JobConf.setOutputValueGroupingComparator(Class)来指定一个Comparator。再加上 JobConf.setOutputKeyComparatorClass(Class)可用于控制中间过程的key如何被分组，所以结合两者可以实现按值的二次排序。

Reduce

本阶段框架为已分组的输入数据中的每个 <key, (list of values)>对调用一次 reduce(WritableComparable, Iterator, OutputCollector, Reporter)方法。

reduce任务的输出通常是通过调用OutputCollector.collect(WritableComparable, Writable)来写入文件系统的。

应用可以利用Reporter来报告进度，设置程序级别状态消息和更新计数器，或是仅仅告知程序运行正常。

Reducer的输出没有排序处理。

需要多少Reduce

Reduce的数目建议是0.95或1.75乘以 (<no. of nodes> *mapred.tasktracker.reduce.tasks.maximum)。

转载于:https://my.oschina.net/u/2842177/blog/1559696