MapTask运行机制

MapTask的运行机制包括:根据InputFormat确定MapTask数量,数据由mapper处理后写入环形缓冲区,达到阈值时溢写并分区排序,可选地使用Combiner进行归并。对于小文件处理,可以通过指定CombineTextInputFormat优化。此外,可以自定义分区和键内排序规则以适应特定需求。
摘要由CSDN通过智能技术生成

MapTask并行度

maptask并行度

前文提到MapReduce程序包含两个阶段——Map阶段和Reduce。在提交一个Job任务时,在Map阶段会根据提交的任务,来决定需要开启多少个MapTask来执行。

split表示针对每一个文件的单独切片,即,每一个split,会分配到一个maptask进行处理,而默认情况下,split的大小和block的大小一致,即128M,有多少个block,就需要开启多少个MapTask。如上图中,一个400M的文件,在HDFS文件系统默认情况下会被分成四块,那么,在提交Job处理此文件时,Map阶段需要开启四个MapTask。

block是hdfs分布式文件系统的基本单位,默认为128M。因为是基本单位,所以,当处理的文件是小文件,如几M或几百K时,也需要分出一个block来存储文件。实际应用中,如果HDFS文件系统已经存在大量的小文件,即处理大量的block,那么,在执行MapReduce时,一个block开启一个maptask,而处理的文件实际只有几M或几百K,就会造成很大的资源浪费。

下面通过分析MapTask运行机制来优化处理小文件的MapReduce程序。

MapTask运行机制

maptask运行机制

上图属于MapTask的运行机制。

需求:现在需要处理一个200M的文本文件,按照默认设置,需要开启两个MapTask来处理,其中一个MapTask处理数据是128M。

  1. 创建客户端,提交任务Job,通过InputFormat把数据传输给MapTask。
  2. MapTask经过mapper函数,对数据进行切分,并把结果交给outputcontroller。
  3. outputcontroller把数据写入到一个环形缓冲区,环形缓冲区一边是索引,一边是数据,默认大小为100M。
  4. 当写入缓冲区的数据达到一个阈值时(默认80%即80M),会溢写到一个文件,此时会经过HashPartitioner分区(默认分区)和按键进行内存中排序。
  5. 如果定义了一个Combine函数,在排序输出后,会把数据进行归并成一个已分区且已排序的输出文件。相当于在传输给Reduce阶段前先进行一次归并,以使map输出结果更紧凑。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值