MapReduce 默认分区HashPartitioner

一、mapreduce 默认的分区方式

以下就是Hadoop MapReduce中对于默认分区的源码
public int getPartition(K2 key, V2 value,
                          int numReduceTasks) {
    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
  }
      1. 其中key.hashCode(),是对map输出的key取hashCode值
2. & 是java中位运算符,在数据的二进制层面上按位与的意思
两个操作数中位都为1,结果才为1,否则结果为0;
public class data13{
public static void main(String[] args){
	int a=129;
	int b=128;
	System.out.println("a 和b 与的结果是:"+(a & b));
	}
}
运行结果:
a 和b 与的结果是:128
下面分析这个程序:
“a”的值是129,转换成二进制就是10000001,而“b”的值是128,转换成二进制就是10000000。
根据与运算符的运算规律,只有两个位都是1,结果才是1,可以知道结果就是10000000,即128。
3. 综合而言,key.hashCode() & Integer.MAX_VALUE 是要保证任何map输出的key在与numReduceTasks取模后决定的分区为正整数。

二、常见数据的hashcode值

1. int类型的数据

public void testInt() {
	for(int i = -3;i<=3; i++ ) {			
			System.out.println(((Integer)i).hashCode());
	}				
}
结果:
-3
-2
-1
0
1
2
3
由此可见,对于int数据而言,它的hashcode值就是其包装类型Integer本身,也有正负之分

2.解决int类型数据hashcode值取模出现负数而影响分区的方式

public void testIntMax() {
		for(int i = -3;i<=3; i++) {
			int n = ((Integer)i).hashCode();
			System.out.println(n & Integer.MAX_VALUE);
	}
}
结果:
2147483645
2147483646
2147483647
0
1
2
3
由此可见hashcode值如果为负数的话,可以对其与Integer.MAX_VALUE按位运算,之后其结果就成为了正数

3.字符类型的hashcode值

public void testChar(){
		for(int i = (int)'a'; i<=(int)'a'+25;i++ ) {			
			String str = String.valueOf((char)i);
			System.out.print((char)i+"->"+str.hashCode()+"\n");			
	}		
}
结果:
a->97
b->98
...
x->120
y->121
z->122
由此可见英文字幕a-z或者A-Z的hashcode值就是其对应的整形数值。












  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值