Hadoop 少量map/reduce任务执行慢问题

最新推荐文章于 2022-05-17 15:20:14 发布

weixin_33800593

最新推荐文章于 2022-05-17 15:20:14 发布

阅读量499

点赞数

文章标签：大数据

最近在做报表统计，跑hadoop任务。

之前也跑过map/reduce但是数据量不大，遇到某些map/reduce执行时间特别长的问题。

执行时间长有几种可能性：

1. 单个map/reduce任务处理的任务大。

需要注意每个任务的数据处理量大小不至于偏差太大。可以切割部分大文件。

2. map数量过多, reduce拉取各方数据慢

这种情况，可以在中间加一轮map过程A。

即map -> mapA - > reduce，来减少reduce拉取数据的源头的个数。

3. 遇到了执行慢节点

hadoop 可以执行推测执行。对于某些耗时长的任务，如果集群有多余的slot可以启动额外的任务执行。

如果对于同一个map(或者reduce)，有任何一个相同map执行完成。则其他任务会被kill, 该map(或者reduce)执行完成。

这种情况完全避免了，慢节点问题。

　推测执行参数: mapred.map.tasks.speculative.execution 和 mapred.reduce.tasks.speculative.execution 默认开启。

map/reduce官方默认参数: https://hadoop.apache.org/docs/r1.0.4/mapred-default.html

weixin_33800593

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop 少量map/reduce任务执行慢问题

最近在做报表统计，跑hadoop任务。之前也跑过map/reduce但是数据量不大，遇到某些map/reduce执行时间特别长的问题。执行时间长有几种可能性：1. 单个map/reduce任务处理的任务大。需要注意每个任务的数据处理量大小不至于偏差太大。可以切割部分大文件。2. map数量过多, reduce拉取各方数据慢这种情况，可以在中间加一轮map过程...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。