Hadoop系列学习–Partitioner内置分区与Partitioner自定义分区

Hadoop系列学习–Partitioner内置分区与Partitioner自定义分区

MapReduce的编程灵活性很高,其中Partitioner分区函数的作用也很重要。

Partitioner分区函数的作用:

  • 根据业务的需求,灵活的根据业务输出多个日志
  • 多个Reduce并发处理日志,提高工作运行的效率
  • 使数据能够均匀分布在reduce上进行操作,避免产生热点区域。

**
默认的Partitioner分区
**
默认的partitioner是HashPartitioner,他对每条记录的键进行哈希操作以决定该记录应该属于哪个分区。每个分区对应一个reducer任务,所以分区数等于作业的reducer的个数。

public class HashPartitioner<K,V> extends Partitioner<K,V>{
   
        @Override
        public int getPartition(K k, V v, int numPartitions) {
            return (k.hashCode() & Integer.MAX_VALUE) % numPartitions; 
        }
    }

自定义Partitioner分区

默认分区具有限制性,由于它是根据HashCode的值去分区,而有一些业务,例如我们要将日志的11位数与不是11位数的输出日志分开。例如:

log1:
1111111111 aaa
1111111111 aaa1
1111111111 aaa14
1111111111 aaa2
11111111112 aaa3

log2:
222222 aaa
222222 aaa1
222222 aaa14
222222 aaa2
2222222 aaa
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值