Hadoop streaming运行python程序如何设置map和reduce的个数(python)

本文介绍了如何在Hadoop Streaming中使用Python进行大数据处理时设置map和reduce任务的数量。通过理解map任务计算的原理,包括输入分片、分片大小的计算公式以及mapred.map.tasks参数的影响,可以有效调整任务数量以优化程序性能。在处理大量小文件时,可通过自定义文件split大小来增加map任务的数量。
摘要由CSDN通过智能技术生成

Hadoop Streaming给许多语言(java,scala,python,C等)提供了使用Hadoop和编写Mapreduce的接口。在实际工作中,我选择python来做大数据处理,在编写mapreduce作业时,经常遇到map和reduce的个数怎么设置,因为它们的个数决定着程序运行的效率和一些其它方面的因素(例如对于一个大的数据集,如果使用一个map来处理,很容易造成该节点的内存等不足)。所以如何设置这两个参数,也非常重要。
本博文

  • 首先介绍一下需要设置map和reduce个数的应用场景
  • 接着对如何计算map个数给出两个解释(个人认为解释一是有用的)
  • 最后给出一个使用Hadoop Streaming 提交python编写的mapreduce作业的事例(应用的解释一)

1. 应用场景

遇到下面的问题时,要考虑设置map个数

  1. 输入文件size巨大,但不是小文件
    这种情况可以通过增大每个mapper的input size,即增大minSize或者增大blockSize来减少所需的mapper的数量。增大blockSize通常不可行,因为当HDFS被hadoop namenode -format之后,blockSize就已经确定了(由格式化时dfs.block.size决定),如果要更改blockSize,需要重新格式化HDFS,这样当然会丢失已有的数据。所以通常情况下只能通过增大minSize,即增大mapred.min.split.size的值
  2. 输入文件数量巨大,且都是小文件
    如果全部文件大小除以blocksize(一般hadoop默认为64M或者128M),比较小,那么map的个数也会很少,这样程序运行就慢,无法发挥大集群的优势。

两个解释

解释一:下面详细来解释一下,map具体的个数是怎么计算出来的。

先看一下这个图
在这里插入图片描述

输入分片(Input Split):在进行map计算之前,mapreduce会根据输入文件计算输入分片(input split),每个输入分片(input split)针对一个map任务,输入分片(input split)存储的并非数据本身,而是一个分片长度和一个记录数据的位置的数组。

Hadoop 2.x默认的block大小是128MB,Hadoop 1.x默认的block大小是64MB,可以在hdfs-site.xml中设置dfs.block.size,注意单位是byte

分片大小范围可以在mapred-site.xml中设置,mapred.min.split.size mapred.max.split.size,minSplitSize大小默认为1B,maxSplitSize大小默认为Long.MAX_VALUE = 9223372036854775807

那么分片到底是多大呢?可以通过下面的公式计算

minSize=max{minSplitSize,mapred.min.split.size}

maxSize=mapred.max.split.size

splitSize=max{minSize,min{maxSize,blockSize}}

我们再来看一下源码
在这里插入图片描述

所以在我们没有设置分片的范围的时候,分片大小是由block块大小决定的,和它的大小一样。比如把一个258MB的文件上传到HDFS上,假设block块大小是1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值