淘宝MapReduce作业特性分析(转)

  • 大部分是小作业,大多数运行几分钟或十几分钟.绝大多数在半小时之内。占用的slot数一般为几十到几百。
  • 集群同时在运行的作业数比较多。繁忙的时候同时运行的作业有六百多个, 每天完成的作业数万个。
  • 有些作业被分析多个要求顺序执行的小作业。各作业的依赖性比较大, 后面一组作业的开始时间受限前一组作业的结束时间
  • Map slots与Reduce slots使用率不高,特别是Reduce Slots。
  • 作业周期性比较明显,每个晚上1点到5点左右,集群处于相对忙的状态,白天很空闲。
  • 作业时效性要求较强。大部分作业要求在上午8点前执行结束,特别是涉及前端产品,如量子统计、数据魔方等业务的作业。如果上班前作业没有执行完毕,会招来用户投诉。
  • 为保证某些重要部门的作业及时完成,Hadoop集群资源按公司部门来划分使用,每个部门都一个资源使用量上限,某剖门里的作业只能在他所有部门的配给中申请资源。同一部门的作业资源使用总量不能超过那个上限。这点容易造成有些部门的资源很紧张,而某些部门的资源还有空余。
  • 作业是有优先级,集群总是优先执行优先级高的作业,会发生资源抢占。杀掉某些低优先级的task,获得空闲slots。而且,与Hadoop自带的公平调度器不同,当某个TT有空闲slots时,不是分配给最缺乏slot的那个job,而是分配给优先级最高的job。

Job size.jpg

转自 http://cloud.hdu.edu.cn/wiki/index.php/%E7%AC%AC%E4%BA%8C%E6%9C%9F%EF%BC%9A%E6%B7%98%E5%AE%9DMapReduce%E4%BD%9C%E4%B8%9A%E7%89%B9%E6%80%A7%E5%88%86%E6%9E%90

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值