hadoop下Illegal partition for问题处理

1.背景:

    对一个文件中的key进行过滤,需要过滤的key存储在另一个文件中。需要过滤的key数量很大,有上亿条,因此采用bloomfilter等方法不太合适。同时文件中的带过滤的key可能会很多也可能很少。因此采用value二次排序的方法过滤,将需要过滤的key做成key0,真实的key做成key1。使用分区函数和key比较函数将相同的key发送到同一个机器上,只要判断key的第一个key值key0是否存在就可以确定key是否需要过滤。

2.问题:

    采用二次排序,需要实现getPartition函数。考虑到hash函数可能返回负数,因此返回是使用了这样一个函数Math.abs(k)%numReduceTasks。  一开始测试的时候没有发现问题,后来将输入文件增多后发现程序会报Illegal partition for错误。

3.处理过程:

    直接求助google, 从http://blog.csdn.net/hezuoxiang/article/details/6878026 中看出来,错误是因为分区函数返回了负数,这个值不合理。一时有点懵,难道Math.abs(x)返回的不是正数?再次求助google,http://blog.sina.com.cn/s/blog_71643cb101012442.html 明白了原来x很大(溢出变成负数)或者很小的负数时,即超过了int的表示范围。返回会是个负数。至此,知道了问题的关键,通过hash得到的k值太大,或者太小,超过了int的可表示范围。嗯,c/c++程序员用java写hadoop就是一堆坑要踩。

4.解决方法:

    (1) 换一个hash函数,使得hash值在int能表示的范围内。

     (2) 对hash函数的值先取模在取绝对值 Math.abs(k % numReduceTasks);。
 



转载于:https://my.oschina.net/sevenwater/blog/207097

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值