hadoop入门 使用MapReduce 简单Partitioner分区(六)

文章介绍了如何使用HadoopMapReduce进行wordcount测试,并讲解了默认的分区规则,即key的hash值对ReduceTask数量取余。接着,作者提供了一个自定义分区器PartitionerRule的示例,根据电话号码前三位进行分区,并设置了5个ReduceTask。自定义分区允许更精细地控制数据流向,提高处理效率。
摘要由CSDN通过智能技术生成

1、可以使用wordcount代码测试

https://blog.csdn.net/weixin_43205308/article/details/129876876

2、主要代码

job.setNumReduceTasks(2);
在这里插入图片描述

3、默认分区规则

将key取 hash 值,然后对ReduceTask个数取余。key.hashcode() % numReduceTask(每个分区都会产生一个ReduceTask,所以ReduceTask个数就是分区个数)

4、效果

在这里插入图片描述

5、自定义分区

5.1自定义规则

package com.example.hadoop.partioner2;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

public class PartitionerRule extends Partitioner<Text,FlowBean> {

    @Override
    public int getPartition(Text text, FlowBean flowBean, int i) {
        String phone=text.toString();
        String prefix=phone.substring(0,3);
        switch (prefix){
            case "136":
                return 0;
            case "137":
                return 1;
            case "138":
                return 2;
            case "139":
                return 3;
            default:
                return 4;
        }
    }
}

5.2主要代码

  job.setPartitionerClass(PartitionerRule.class);
  job.setNumReduceTasks(5);

在这里插入图片描述

5.3其他代码具体可参考

在这里插入图片描述

https://blog.csdn.net/weixin_43205308/article/details/129882158?spm=1001.2014.3001.5502

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值