为什么Hadoop集群中机器台数多反而执行速度慢?

这里我对这个现象给出解释。由于水平有限,发现错误,请及时留言,或站内和我联系。

这里假设集群中有slave1slave2slave3三个节点,其中slave3工作效率低。

一共有6个任务,需要去做,slave1slave2执行一个任务是1分钟,slave3执行一个任务是2分钟。有一个前提是每个slave完成自身的任务才回去推测执行。

如果让slave1slave2去做,则需要3分钟,分析如下:

slave1     slave2

3            3

3*1         3*1

并行执行总时间就是单个slave的执行时间3

那么三台同时去做需要4分钟。

slave1     slave2     slave3

2            2            2

这里slave1slave2都完成了自身的任务,已经花费了2分钟,剩下最后一个任务考虑到数据的本地性也分给了slave3slave3执行时间超过一分钟时,jobtracker会觉得slave3可能没有能力完成分配给他的任务,假设在slave1上推测执行,结果slave3结束了,就将运行在slave1上的推测执行任务kill掉,最后执行时间是4秒。

因为在推测执行的时候会两个推测执行的任务会同时完成。

 

转载请注明出处。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值