hadoop中的Partitioner分区

最新推荐文章于 2021-08-19 10:10:43 发布

hljlzc2007

最新推荐文章于 2021-08-19 10:10:43 发布

阅读量1.3k

点赞数

分类专栏： Hadoop

Hadoop 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

hadoop的map/reduce中支持对key进行分区，从而让map出来的数据均匀分布在reduce上，当然，有时候由于机器间配置问题，可能不需要数据均匀，这时候也能派上用场。
框架自带了一个默认的分区类，HashPartitioner，先看看这个类，就知道怎么自定义key分区了。
public class HashPartitioner<K, V> extends Partitioner<K, V> {

/** Use {@link Object#hashCode()} to partition. */
public int getPartition(K key, V value,
int numReduceTasks) {
return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
}

}
很简单，继承Partitioner即可。
先解释一下这个HashPartitioner做的事情
(key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
将key均匀分布在ReduceTasks上，举例如果Key为Text的话，Text的hashcode方法跟String的基本一致，都是采用的Horner公式计算，得到一个int，string太大的话这个int值可能会溢出变成负数，所以与上Integer.MAX_VALUE（即0111111111111111），然后再对reduce个数取余，这样就可以让key均匀分布在reduce上。
这个简单算法得到的结果可能不均匀，因为key毕竟不会那么线性连续，这时候可以自己写个测试类，计算出最优的hash算法。
PS：hadoop框架本身包含了一些跟hash算法相关的数学之美，比如布隆过滤器（BloomFilter），写好hash函数是关键。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

hljlzc2007 CSDN认证博客专家 CSDN认证企业博客

码龄17年

52: 原创

18万+: 周排名

97万+: 总排名

34万+: 访问

: 等级

3641: 积分

71: 粉丝

13: 获赞

35: 评论

23: 收藏

私信

关注

热门文章

分类专栏

HBase 15篇
Hadoop 8篇
storm 8篇
log collector 5篇
算法 5篇
Linux 7篇
Java 8篇
android 1篇
osgi 1篇
jprofiler 1篇
Git 1篇
JMS 3篇
db 4篇
搜索 1篇
mvn 1篇
杂谈 1篇
大数据 1篇
调度 1篇

最新评论

深入分析HBase Compaction机制
Leon_liuqinburen 回复 bai1124: 在 minor Compression 中选择的是部分storefile文件，你这部分文件的 maxVersions=2 是没意义的。无法保障是kv仅有的2个版本。必须在 major 对所有的storefile进行merge，才能保障啊
Region Server 宕机后,处理过程
烨小子: 之前有过一次出现服务器的操作系统”echo 0 > /proc/sys/kernel/hung_task_timeout_secs” disables this message.造成操作系统夯住的情况，导致该服务器上的regionserver服务无法正常提供，但是它依然存活，但是在过了将近半小时后，日志上显示，regionserver epheephemeral node delete，processing expiration。就是不知道为什么过了半小时后，zk对它的信息更新了，关键信息更新完之后，应用客户端依然连着这个regionserver，并且无响应。
too many open files解决办法
bobli: 1
too many open files解决办法
bobli: 1%' AND 11=1#
too many open files解决办法
bobli: 1

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。