Hadoop streaming运行python程序如何设置map和reduce的个数（python）

最新推荐文章于 2023-10-30 13:55:15 发布

Never-Giveup

最新推荐文章于 2023-10-30 13:55:15 发布

阅读量2.5k

点赞数 1

分类专栏： Hadoop学习文章标签： Hadoop mapreduce python map和reduce的个数

本文链接：https://blog.csdn.net/qq_36653505/article/details/86029713

版权

本文介绍了如何在Hadoop Streaming中使用Python进行大数据处理时设置map和reduce任务的数量。通过理解map任务计算的原理，包括输入分片、分片大小的计算公式以及mapred.map.tasks参数的影响，可以有效调整任务数量以优化程序性能。在处理大量小文件时，可通过自定义文件split大小来增加map任务的数量。

摘要由CSDN通过智能技术生成

Hadoop Streaming给许多语言（java,scala,python,C等）提供了使用Hadoop和编写Mapreduce的接口。在实际工作中，我选择python来做大数据处理，在编写mapreduce作业时，经常遇到map和reduce的个数怎么设置，因为它们的个数决定着程序运行的效率和一些其它方面的因素（例如对于一个大的数据集，如果使用一个map来处理，很容易造成该节点的内存等不足）。所以如何设置这两个参数，也非常重要。
本博文

首先介绍一下需要设置map和reduce个数的应用场景
接着对如何计算map个数给出两个解释（个人认为解释一是有用的）
最后给出一个使用Hadoop Streaming 提交python编写的mapreduce作业的事例（应用的解释一）

1. 应用场景

遇到下面的问题时，要考虑设置map个数

输入文件size巨大，但不是小文件
这种情况可以通过增大每个mapper的input size，即增大minSize或者增大blockSize来减少所需的mapper的数量。增大blockSize通常不可行，因为当HDFS被hadoop namenode -format之后，blockSize就已经确定了(由格式化时dfs.block.size决定)，如果要更改blockSize，需要重新格式化HDFS，这样当然会丢失已有的数据。所以通常情况下只能通过增大minSize，即增大mapred.min.split.size的值
输入文件数量巨大，且都是小文件
如果全部文件大小除以blocksize（一般hadoop默认为64M或者128M），比较小，那么map的个数也会很少，这样程序运行就慢，无法发挥大集群的优势。