Hadoop MapTask/ReduceTask各阶段耗费时间的测试

最新推荐文章于 2024-03-06 09:07:28 发布

Flood_Dragon

最新推荐文章于 2024-03-06 09:07:28 发布

阅读量1.3k

点赞数

分类专栏： hadoop

hadoop 专栏收录该内容

76 篇文章 2 订阅

订阅专栏

io.block.size：64M

mapred.mapinput.min.splitsize：512M

io.sort.mb：512M

每个maptask的输入为512M的数据，在每个maptask中，发生了3次spill缓存溢写。

下面是通过日志统计出的各个细分阶段所用的时间：

每个TaskTracker都使用一个队列保存JobTracker分发过来的Task，我们将一个Task出队列的时间作为时间原点。

1. Hadoop首先将有关Task的文件（job.split，job.xml以及job.jar）从HDFS拷贝到TaskTracker的本地文件系统中，使用了不到1s的时间。这是因为job.split本来就在本地磁盘上。

2. 当所有需要的资源都已经被拷贝到本地后，Hadoop为这个Task启动一个TaskRunner线程，TaskRunner完成一些初始化工作，比如创建临时文件夹等等，最后TaskRunner启动一个子进程Child。此阶段耗时2s。

3. 子进程Child与TaskTracker进程通信，获得运行Task需要的JvmTask对象。此阶段耗时2s。

4. Child进程一开始有一些初始化工作，耗时2s。然后开始真正的运行maptask。

5, 第一次map输出缓冲区被写满，耗时52s，然后对缓存排序耗时2s，然后将排好序的数据写入一个spill文件，耗时18s。

6, 第二次map输出缓冲区被写满，耗时39s，然后对缓存排序耗时1s，然后将排好序的数据写入一个spill文件，耗时14s。

7, 第三次是一个flush操作，将缓冲区内剩余数据写入一个spill文件，总共耗时1s。

8, 最后将3个spill文件merge，耗时不到1s。

Hadoop统计的这个Task总共耗时134s，与本次测试的时间统计加和相当，说明测试正确。

ReduceTask可以分为三个步骤：

copy:在第一批map结束的时候，copy就开始了，但是要等到所有map结束copy才有可能结束，所以这个阶段的时间统计较长，为200s

sort:由于使用了combiner，reduce阶段要处理的数据很少，这里的一个ReduceTask处理242条记录，大小约50k，用时1s

reduce：用时不到1s

Hadoop Job Tuning

http://www.searchtb.com/2010/12/hadoop-job-tuning.html

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。