MapReduce的分区

一:分区Partitioner

在MapReduce中,通过指定分区,mapTask会将同一个分区的数据发送到同一个reduce当中进行处理。也就是把相同类型的数据,发送到同一个reductTask去处理。

注意:分区需要在yarn集群上运行,不能本地测试。

二:代码实现

自定义分区类,注意分区实现阶段在map阶段,也就是分区时的key为k2,v2阶段


import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

/**
 * 自定义分区
 * 接收的参数是k2,v2
 * 多个分区,对应输出的结果文件也是多个
 */
public class Partition extends Partitioner<Text,NullWritable> {
    /**
     *
     * @param text:k2
     * @param nullWritable:v2
     * @param i
     * @return:返回分区数
     */
    @Override
    public int getPartition(Text text, NullWritable nullWritable, int i) {
        String s = text.toString();
        String[] split = s.split("\t");
        if(Integer.valueOf(split[5]) > 15){
            return 1;//到1号reduceTask
        }
        return 0;//到0号reduceTask
    }
}

三:设置分区类和reduceTask数量

//第三步:自定义分区

job.setPartitionerClass(Partition.class);

//设置分区数,也就是设置有几个reduce,结果会产生几个结果文件,

//如果设置数量过大例如:2块砖,设置了3个人ReduceTask处理,则其中有一个处理为空的内容,则返回的结果文件有一个没有值

//如果设置数量过小例如:2块砖,设置了1个人ReduceTask处理,则会重复处理

job.setNumReduceTasks(2);

驱动程序:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值