MapReduce 默认分区HashPartitioner

最新推荐文章于 2024-08-22 22:16:40 发布

gjf362

最新推荐文章于 2024-08-22 22:16:40 发布

阅读量2.2k

点赞数 3

分类专栏：大数据 Hadoop 文章标签：大数据 mapreduce HBase

本文链接：https://blog.csdn.net/gjf362/article/details/74496977

版权

大数据同时被 2 个专栏收录

3 篇文章

订阅专栏

Hadoop

2 篇文章

订阅专栏

一、mapreduce 默认的分区方式

以下就是Hadoop MapReduce中对于默认分区的源码

public int getPartition(K2 key, V2 value,
                          int numReduceTasks) {
    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
  }

1. 其中key.hashCode()，是对map输出的key取hashCode值

2. & 是java中位运算符，在数据的二进制层面上按位与的意思

两个操作数中位都为1，结果才为1，否则结果为0;

public class data13{
public static void main(String[] args){
	int a=129;
	int b=128;
	System.out.println("a 和b 与的结果是："+(a & b));
	}
}

运行结果:

a 和b 与的结果是：128
下面分析这个程序：
“a”的值是129，转换成二进制就是10000001，而“b”的值是128，转换成二进制就是10000000。

根据与运算符的运算规律，只有两个位都是1，结果才是1，可以知道结果就是10000000，即128。

3. 综合而言，key.hashCode() & Integer.MAX_VALUE 是要保证任何map输出的key在与numReduceTasks取模后决定的分区为正整数。

二、常见数据的hashcode值

1. int类型的数据

public void testInt() {
	for(int i = -3;i<=3; i++ ) {			
			System.out.println(((Integer)i).hashCode());
	}				
}

结果：

由此可见，对于int数据而言，它的hashcode值就是其包装类型Integer本身，也有正负之分

2.解决int类型数据hashcode值取模出现负数而影响分区的方式

public void testIntMax() {
		for(int i = -3;i<=3; i++) {
			int n = ((Integer)i).hashCode();
			System.out.println(n & Integer.MAX_VALUE);
	}
}

结果：

由此可见hashcode值如果为负数的话，可以对其与Integer.MAX_VALUE按位运算，之后其结果就成为了正数

3.字符类型的hashcode值

public void testChar(){
		for(int i = (int)'a'; i<=(int)'a'+25;i++ ) {			
			String str = String.valueOf((char)i);
			System.out.print((char)i+"->"+str.hashCode()+"\n");			
	}		
}

结果：