MapTask运行机制

最新推荐文章于 2024-10-11 09:25:02 发布

Even710

最新推荐文章于 2024-10-11 09:25:02 发布

阅读量1.1k

点赞数 1

分类专栏： Hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_37581297/article/details/85291770

版权

MapTask的运行机制包括：根据InputFormat确定MapTask数量，数据由mapper处理后写入环形缓冲区，达到阈值时溢写并分区排序，可选地使用Combiner进行归并。对于小文件处理，可以通过指定CombineTextInputFormat优化。此外，可以自定义分区和键内排序规则以适应特定需求。

摘要由CSDN通过智能技术生成

MapTask并行度

maptask并行度

前文提到MapReduce程序包含两个阶段——Map阶段和Reduce。在提交一个Job任务时，在Map阶段会根据提交的任务，来决定需要开启多少个MapTask来执行。

split表示针对每一个文件的单独切片，即，每一个split，会分配到一个maptask进行处理，而默认情况下，split的大小和block的大小一致，即128M，有多少个block，就需要开启多少个MapTask。如上图中，一个400M的文件，在HDFS文件系统默认情况下会被分成四块，那么，在提交Job处理此文件时，Map阶段需要开启四个MapTask。

block是hdfs分布式文件系统的基本单位，默认为128M。因为是基本单位，所以，当处理的文件是小文件，如几M或几百K时，也需要分出一个block来存储文件。实际应用中，如果HDFS文件系统已经存在大量的小文件，即处理大量的block，那么，在执行MapReduce时，一个block开启一个maptask，而处理的文件实际只有几M或几百K，就会造成很大的资源浪费。

下面通过分析MapTask运行机制来优化处理小文件的MapReduce程序。

MapTask运行机制

maptask运行机制

上图属于MapTask的运行机制。

需求：现在需要处理一个200M的文本文件，按照默认设置，需要开启两个MapTask来处理，其中一个MapTask处理数据是128M。

创建客户端，提交任务Job，通过InputFormat把数据传输给MapTask。
MapTask经过mapper函数，对数据进行切分，并把结果交给outputcontroller。
outputcontroller把数据写入到一个环形缓冲区，环形缓冲区一边是索引，一边是数据，默认大小为100M。
当写入缓冲区的数据达到一个阈值时（默认80%即80M），会溢写到一个文件，此时会经过HashPartitioner分区（默认分区）和按键进行内存中排序。
如果定义了一个Combine函数，在排序输出后，会把数据进行归并成一个已分区且已排序的输出文件。相当于在传输给Reduce阶段前先进行一次归并，以使map输出结果更紧凑。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。