Hadoop中的二次排序实现,自定义分区,以及自定义分组

理论部分摘自博客园,感谢博主的总结!
https://www.cnblogs.com/codeOfLife/p/5568786.html


默认情况下,Map输出的结果会对Key进行默认的排序,但是有时候需要对Key排序的同时还需要对Value进行排序,这时候就要用到二次排序了。下面我们来说说二次排序

1、二次排序原理

  我们把二次排序分为以下几个阶段

  Map起始阶段

    在Map阶段,使用job.setInputFormatClass()定义的InputFormat,将输入的数据集分割成小数据块split,同时InputFormat提供一个RecordReader的实现。在这里我们使用的是TextInputFormat,它提供的RecordReader会将文本的行号作为Key,这一行的文本作为Value。这就是自定 Mapper的输入是<LongWritable,Text> 的原因。然后调用自定义Mapper的map方法,将一个个<LongWritable,Text>键值对输入给Mapper的map方法

  Map最后阶段

    在Map阶段的最后,会先调用job.setPartitionerClass()对这个Mapper的输出结果进行分区,每个分区映射到一个Reducer。每个分区内又调用job.setSortComparatorClass()设置的Key比较函数类排序。可以看到,这本身就是一个二次排序。如果没有通过job.setSortComparatorClass()设置 Key比较函数类,则使用Key实现的compareTo()方法

  Reduce阶段

    在Reduce阶段,reduce()方法接受所有映射到这个Reduce的map输出后,也会调用job.setSortComparatorClass()方法设置的Key比较函数类,对所有数据进行排序。然后开始构造一个Key对应的Value迭代器。这时就要用到分组,使用 job.setGroupingComparatorClass()方法设置分组函数类。只要这个比较器比较的两个Key相同,它们就属于同一组,它们的 Value放在一个Value迭代器,而这个迭代器的Key使用属于同一个组的所有Key的第一个Key。最后就是进入Reducer的 reduce()方法,reduce()方法的输入是所有的Key和它的Value迭代器,同样注意输入与输出的类型必须与自定义的Reducer中声明的一致

 

  接下来我们通过示例,可以很直观的了解二次排序的原理

  输入文件 sort.txt 内容为

    40 20

    40 10

    40 30

    40 5

    30 30

    30 20

    30 10

    30 40

    50 20

    50 50

    50 10

    50 60

  输出文件的内容(从小到大排序)如下

    30 10

    30 20

    30 30

    30 40

    --------

    40 5

    40 10

    40 20

    40 30

    --------

    50 10

    50 20

    50 50

    50 60

  从输出的结果可以看出Key实现了从小到大的排序,同时相同Key的Value也实现了从小到大的排序,这就是二次排序的结果

2、二次排序的具体流程

  在本例中要比较两次。先按照第一字段排序,然后再对第一字段相同的按照第二字段排序。根据这一点,我们可以构造一个复合类IntPair ,它有两个字段,先利用分区对第一字段排序,再利用分区内的比较对第二字段排序。二次排序的流程分为以下几步。

  1、自定义 key

    所有自定义的key应该实现接口WritableComparable,因为它是可序列化的并且可比较的。WritableComparable 的内部方法如下所示

复制代码
// 反序列化,从流中的二进制转换成IntPair
public void readFields(DataInput in) throws IOException

// 序列化,将IntPair转化成使用流传送的二进制
public void write(DataOutput out)

//  key的比较
public int compareTo(IntPair o)

//  默认的分区类 HashPartitioner,使用此方法
public int hashCode()

//  默认实现
public boolean equals(Object right)
复制代码

  2、自定义分区

    自定义分区函数类FirstPartitioner,是key的第一次比较,完成对所有key的排序。

public static class FirstPartitioner extends Partitioner< IntPair,IntWritable>

    在job中使用setPartitionerClasss()方法设置Partitioner

job.setPartitionerClasss(FirstPartitioner.Class);

  3、Key的比较类

    这是Key的第二次比较,对所有的Key进行排序,即同时完成IntPair中的first和second排序。该类是一个比较器,可以通过两种方式实现。

    1) 继承WritableComparator。

public static class KeyComparator extends WritableComparator

      必须有一个构造函数,并且重载以下方法。

public int compare(WritableComparable w1, WritableComparable w2)

    2) 实现接口 RawComparator。

      上面两种实现方式,在Job中,可以通过setSortComparatorClass()方法来设置Key的比较类。

job.setSortComparatorClass(KeyComparator.Class);

      注意:如果没有使用自定义的SortComparator类,则默认使用Key中compareTo()方法对Key排序。

  4、定义分组类函数

    在Reduce阶段,构造一个与 Key 相对应的 Value 迭代器的时候,只要first相同就属于同一个组,放在一个Value迭代器。定义这个比较器,可以有两种方式。

    1) 继承 WritableComparator。

public static class GroupingComparator extends WritableComparator

      必须有一个构造函数,并且重载以下方法。

public int compare(WritableComparable w1, WritableComparable w2)

    2) 实现接口 RawComparator。

      上面两种实现方式,在 Job 中,可以通过 setGroupingComparatorClass()方法来设置分组类。

job.setGroupingComparatorClass(GroupingComparator.Class);

      另外注意的是,如果reduce的输入与输出不是同一种类型,则 Combiner和Reducer 不能共用 Reducer 类,因为 Combiner 的输出是 reduce 的输入。除非重新定义一个Combiner。



代码如下:

package com.ibeifeng.hadoop19_copy;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Mapper.Context;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class SecondSort { 
 //每行数据有两个Int型数字,我们需要先对第一个数进行排序,然后再对第二个数进行排序,默认map的输出会对key进行排序,所以我们将第一个数字与第二个数字放到一起,组成新的key,这样就第一第二个字排序。
 public static class Map extends Mapper<LongWritable,Text,IntPairs,IntWritable>{
  private final IntPairs mapoutkey = new IntPairs();
  private final IntWritable mapoutvalue = new IntWritable();
  @Override
  protected void map(LongWritable key, Text value, Context context)
    throws IOException, InterruptedException {
   int left = 0;
   int right = 0;
   String line = value.toString();
  // System.out.println(line);
   StringTokenizer tokenizer = new StringTokenizer(line);
   if(tokenizer.hasMoreTokens()){
    left = Integer.parseInt(tokenizer.nextToken());
   }
   if(tokenizer.hasMoreTokens()){
    right = Integer.parseInt(tokenizer.nextToken());
   }
   mapoutkey.set(left, right);
   System.out.println(mapoutkey);
   mapoutvalue.set(right);
   context.write(mapoutkey, mapoutvalue);
  }
   
 }
 
 public static class Reduce extends Reducer<IntPairs,IntWritable,Text,IntWritable>{
  private final Text reduceoutkey = new Text();
  @Override
  protected void reduce(IntPairs key, Iterable<IntWritable> value,
    Context context)
    throws IOException, InterruptedException {
   //System.out.println(key);
   //定义分割线,这样可以将不同的分组情况隔离开来,同一分组的数据会被reduce同一批处理
   Text symbol = new Text("-------------------------------------------"); 
   context.write(symbol, null);
   reduceoutkey.set(Integer.toString(key.getFirst()));
   for(IntWritable word : value){
    context.write(reduceoutkey, word);
   }   
  }   
 }
 
 
 public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException{  
  //获取Hadoop的配置信息
  Configuration conf = new Configuration();
  
  //创建job
  Job job = Job.getInstance(conf, "Liuxe");
  
  //设置成打jar包提交
  job.setJarByClass(SecondSort.class);
  
  //设置输如路径
  Path inpath = new Path("hdfs://node-1:8020/testDate.txt");
  FileInputFormat.setInputPaths(job, inpath);
  
  //设置Map
  job.setMapperClass(Map.class);
  job.setMapOutputKeyClass(IntPairs.class);
  job.setMapOutputValueClass(IntWritable.class);
  
  //shuffle阶段,可以自定义分区!自定义分组!设置reduce数量,设置
  job.setNumReduceTasks(3);
  job.setPartitionerClass(NewPartitioner.class);
  job.setGroupingComparatorClass(GroupComparator.class);
  
  //设置Reduce
  job.setReducerClass(Reduce.class);
  job.setOutputKeyClass(IntWritable.class);
  job.setOutputValueClass(IntWritable.class);
  
  //设置输出路径
  Path outpath = new Path("hdfs://node-1:8020/jinhao");
  //检测路径是否存在,存在则删除
  FileSystem fs = outpath.getFileSystem(conf);
  if(fs.exists(outpath)){
   fs.delete(outpath, true);
  }
  
  FileOutputFormat.setOutputPath(job, outpath);
  
  System.exit(job.waitForCompletion(true) ? 0 : 1);
 } 
}


自定义的IntPairs数据类型

package com.ibeifeng.hadoop19_copy;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import org.apache.hadoop.io.WritableComparable;
//因为key是可序列化并且可以比较的,所以要实现WritableComparable的接口
public class IntPairs implements WritableComparable<IntPairs>{
 private int first;
 private int second;
  
 public int getFirst() {
  return first;
 }
 public void setFirst(int first) {
  this.first = first;
 }
 public int getSecond() {
  return second;
 }
 public void setSecond(int second) {
  this.second = second;
 }
 
 public void set(int left, int right){
  this.first = left;
  this.second = right;
 }
 
 @Override
 public int hashCode() {
  final int prime = 31;
  int result = 1;
  result = prime * result + first;
  result = prime * result + second;
  return result;
 }
 @Override
 public boolean equals(Object obj) {
  if (this == obj)
   return true;
  if (obj == null)
   return false;
  if (getClass() != obj.getClass())
   return false;
  IntPairs other = (IntPairs) obj;
  if (first != other.first)
   return false;
  if (second != other.second)
   return false;
  return true;
 }
 
 @Override
 public String toString() {
  return "IntPairs [first=" + first + ", second=" + second + "]";
 }
  
 //序列化,将IntPair转化为使用流传送的二进制
 public void write(DataOutput out) throws IOException {
  out.writeInt(first);
  out.writeInt(second); 
 }
 //反序列化,从流中的二进制转化为IntPair
 public void readFields(DataInput in) throws IOException {
  this.first = in.readInt();
  this.second = in.readInt();  
 } 
 @Override
 public int compareTo(IntPairs o) {
  if(this.first != o.first){
   return this.first < o.first ? -1:1;
  }else if(this.second != o.second){
   return this.second < o.second ? -1:1;
  }else{
   return 0;
  }  
 }
}


自定义的分区类:

package com.ibeifeng.hadoop19_copy;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.mapreduce.Partitioner;
public class NewPartitioner extends Partitioner<IntPairs,IntWritable>{
 
 @Override
 public int getPartition(IntPairs key, IntWritable value, int numPartitions) {
  int left  = key.getFirst();
  return left % numPartitions;
 }
}


自定义的分组类

package com.ibeifeng.hadoop19_copy;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.mapreduce.Partitioner;
public class NewPartitioner extends Partitioner<IntPairs,IntWritable>{
 
 @Override
 public int getPartition(IntPairs key, IntWritable value, int numPartitions) {
  int left  = key.getFirst();
  return left % numPartitions;
 }
}



本篇理论内容摘 抄自博客园,

https://www.cnblogs.com/codeOfLife/p/5568786.html



















评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值