控制sort和作业提交

控制sort和作业提交

MapReduce过程一共发生了3次排序操作,排序操作属于MapReduce的默认行为,我们不能控制是否发生排序,但可以控制排序的规则。
IntWritable类、Text类等都是WritableComparable的实现类,WritableComparable同时继承了Writable和Comparable接口。
WritableComparable实现类可以通过排序器进行比较Hadoop默认的比较方式即调用WritableComparator的compare方法,参数为两个待比较的WritableComparable类型的实例,我们只需实现WritableComparable接口并重写compare方法即可实现自己想要的排序逻辑。
自定义比较器,排序规则为比较key对5取模后的大小:

package cn.chen.hd.mr;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.io.WritableComparator;

public class MyWritableComparator extends WritableComparator{

    public int compareTo(WritableComparable a, WritableComparable b) {
        IntWritable x = (IntWritable)a;
        IntWritable y = (IntWritable)b;
        return (x.get() % 5 - y.get() % 5) > 0 ? 1 : -1;
    }

}

Hadoop在进行排序操作的时候,会将键值对的键传给比较器的compare方法进行比较。

Configuration类代表了作业的配置,该类会加载mapred-site.xmlhdfs-site.xmlcore-site.xml,而Job类代表了一个作业。如果自定义Paritioner、WritableComparator和Combiner,可以在提交作业的代码之前加上:

job.setPartitionerClass(MyPartioner.class);
job.setSortComparatorClass(MyComparator.class);
job.setCombinerClass(MyCombiner.class);

如果想改变作业的配置,可以通过conf.setXX的方法进行配置,比如Reduce任务的个数(默认为1):

job.setNumReduceTasks(2);

完成作业设置,通过waitForCompletion方法提交作业。

System.exit(job.waitForCompletion(true) ? 0 : 1);
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值