Reduce对Pig作业性能的影响

很多用户在使用HDInsightPig功能时,发现有时很简单一个PigLatinrelation会花费很长时间执行,当HDI使用MR框架时,由于Pig会根据具体的relation拆分成相应的MapReduce任务。根据HadoopMR框架如下特点,针对Reduce并行度的优化,会对Pig的作业有很大的性能影响。

HadoopMR框架中有以下特点:

- Map的并行度个数是由输入文件来决定,而Reduce并行度的个数是由Parallel关键字来决定。

- 当不指定parallel关键字时, Reducer task仅有一个。

- Reduce的并行度依赖于cluster的规模,但是每次最多同时提交80reduce


当我们使用Get-AzureHDInsightJobOutput来进一步分析Pig作业的具体执行情况,

我们可以通过Pig作业执行的具体日志来查看MapReduce的效率。如下为当使用groupbyPig作业的日志信息:

===================================================

测试1:默认一个ReducePig作业,执行Pig作业花费了74分钟:



JobId    Maps   Reduces             MaxMapTime  MinMapTIme   AvgMapTime             MedianMapTime           MaxReduceTime            MinReduceTime             AvgReduceTime             MedianReducetime       Alias     Feature             Outputs


job_1423547880282_0013         482       1           418       23         63         63             4314     4314     4314     4314     analyzed,grpd,outtupleGROUP_BY             wasb:///home/ambertest1_32node,

测试2:优化为80ReducePig 作业,执行同样的Pig作业花费了6分钟:

JobId    Maps   Reduces             MaxMapTime  MinMapTIme   AvgMapTime             MedianMapTime           MaxReduceTime            MinReduceTime             AvgReduceTime             MedianReducetime       Alias     Feature             Outputs

job_1423547880282_0049         482       80         134       19         57         61             204       70         153       155       analyzed,grpd,outtupleGROUP_BY             wasb:///home/ambertest9_32node,

===================================================

 

以上PigLatin作业主要使用的是Group by来声明Pigrelation,此外针对其它等同样需要使用reduce关键字的Pig作业,有以下优化建议:

- 在具体执行的Pig Latin中指定所需的Reduce并行度,具体语句如下:

   SET default_parallel 80; /*根据具体HDIcluster的规模设定Reduce的并行度*/

- 设定整个HDI clusterMR框架的Reduce并行度,即为修改mapred-site.xml文件的reduces属性。
















  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值