Hadoop中自定义Partitioner，但是不同的key仍然在一个输出文件中

最新推荐文章于 2020-03-04 19:47:31 发布

nana-li

最新推荐文章于 2020-03-04 19:47:31 发布

阅读量1k

点赞数

分类专栏： Programming 文章标签：自定义Partitioner Text和String类型不匹配

本文链接：https://blog.csdn.net/quiet_girl/article/details/75332803

版权

Programming 专栏收录该内容

25 篇文章 2 订阅

订阅专栏

问题描述：

在自定义Partitioner的时候，想要实现一个简单的功能：将对应的key为“short”、“right”和“long”的分别存储在3个文件中。因为默认是存储在一个文件中，所以需要自定义Partitioner。

在实现功能的时候，想要通过判断key的值来决定result，代码如下：

      public int getPartition(Text key, Text value, int numPartition) {
		// TODO Auto-generated method stub
		int result = 1;
		if(key.equals("short")){
			result = 0 % numPartition;   //part-r-00000
		}else if(key.equals("right")){
			result = 1 % numPartition;   //part-r-00001
		}else if(key.equals("long")){
			result = 2 % numPartition;   //part-r-00002
		}	
		return result;
	}

但是不同的key对应的输出结果仍然在一个文件中，刚开始以为是mapreduce函数的问题，后来经过各种检查，发现问题是出现在自定义Partitioner，结果会将其输出到result初始化的那个值中，即if后面的判断语句结果一直是false。

问题原因：

因为key的类型是Text类型，而key.equals("short")中的"short"是String类型。所以即使key的值是“short”，key.equals("short")的结果仍然是false，因为类型不匹配。

问题解决：

将判断语句改成key.toString().equals("short")，这样就将Text类型的key，先转化成String类型再做比较，这样可以很好地满足我们的需求。

总结：

有些value我们直接看可能是相同的，但是若类型不一样，代码就会认为其不是同一个值。

附：Hadoop入门基础及简单实例代码：https://github.com/Nana0606/hadoop_example