Hadoop之Join时 DataJoin软件包问题

在做HDFS多文件Join时通过监控job成功启动并且mapper执行完毕,但reduce总是不能执行完成,进度卡在66.66%。mapper输出是想要的格式,而且小规模输入数据测试时整个job能成功完成。在查看未完成reduce的状态,发现key不变,“numOfValues”的值却一直在增大

如下格式错误:

key...:1294823 > reduce;

key...:2346134> reduce;

..........

可是reducer中没什么会导致死循环的地方

于是就觉得应该是碰到了死循环。网上查询了下说是DataJoinReducerBase里面的以下源代码引起的



这块代码迭代arg1参数(集合类型的),但这个arg1的大小不能超过this.maxNumOfValuesPerGroup,否则就死循环。因为continue之前并没有从迭代器中取数据的操作,取数据的部分偏偏又执行不到。

其实解决起来也简单,因为



只要我们在初始化job时,设置datajoin.maxNumOfValuesPerGroup为一个很大的值就好了。具体大小是大于一个group key所对应value的最大个数。不确定到底有多大,干脆设置为Long.MAX_VALUE。


上面说的是Reduce死循环出现的原理;

下面是解决方法:

给Job设置mapred.textoutputformat.separator值;

即:

import  org.apache.hadoop.mapred.JobConf;


Configuration conf = getConf();
JobConf job = new JobConf(conf, DataJoin.class);

job.setLong("datajoin.maxNumOfValuesPerGroup", Long.MAX_VALUE);


通过以上设置,再次测试,顺利通过!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值