MapReduce中自定义数据类型作为key

    在MapReduce编程模型中key通常是用来排序和划分的。排序是指按照key的大小顺序将 <k,v> 键值对排序,划分是指按照key的hashcode值将 <k,v>划分到指定的Reducer节点上。

    MapReduce中的key类型必须实现WritableComparable接口,为了方便用户使用,Hadoop提供有一些内置的key类型。常见的key类型有 IntWritable 、LongWritable 、Text、FloatWritable等。但有时我们还需使用自己定义的数据类型作为key。

    下面小编就用数据表求交集的例子来介绍自定义数据类型怎么作为key。

有如下两个数据表,数据关系属于同一模型,字段有 id、name 、age 、grade。数据表table1和table2中的内容如下所示。


    


    求交集的目的是输出两个表中相同的记录。如上table1和table2所示,应该输出id为1、2的记录。

    求交集的思想为在Map阶段对每一条记录r输出 <r,1>,然后在Reduce阶段汇总计数,将计数为2的记录r输出即可。

    我们用一个Stu类来存储一条记录,并将Stu类作为key使用,Stu类要实现WritableComparable接口,要注意一下几点:


  1. 必须有一个无参的构造函数。

  2. 必须重写WritableComparable接口的hashCode()方法和equals()方法以及compareTo()方法。


Stu类的代码如下:


package Eg1;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import org.apache.hadoop.io.WritableComparable;

/**
 * Stu类设计
 * @author liuchen
 */
public class Stu implements WritableComparable<Stu>
{
	private int id;
	private String name;
	private int age;
	private int grade;
	//无参的构造函数必不可少
	public Stu(){	
	}
	public Stu(int a, String b, int c, int d){
		this.id = a;
		this.name = b;
		this.age = c;
		this.grade = d;
	}
	public void readFields(DataInput in) throws IOException {
		this.id = in.readInt();
		this.name = in.readUTF();
		this.age = in.readInt();
		this.grade = in.readInt();	
	}
	public void write(DataOutput out) throws IOException {
		out.writeInt(id);
		out.writeUTF(name);
		out.writeInt(age);
		out.writeInt(grade);
	}
	//按照id降序排列
	public int compareTo(Stu o) {
		return this.id >= o.id ? -1 : 1 ;
	}
	public int hashCode() {
            return this.id + this.name.hashCode() + this.age + this.grade;
	}
	public boolean equals(Object obj) {
	    if (!(obj instanceof Stu)) {  
                return false;  
            }else{  
        	Stu r = (Stu) obj; 
    		if (this.id == r.id && this.name.equals(r.name) && this.age == r.age && this.grade == r.grade){
    	            return true;
    		}else{
    	            return false;
    		}
            }	 
	}
	
	public String toString() {
		return Integer.toString(id) + "\t" + name + "\t" + Integer.toString(age) + "\t" + Integer.toString(grade);
	}
}


Map阶段的map()函数如下:


protected void map(LongWritable key, Text value,Context context)throws IOException, InterruptedException {
		final IntWritable one = new IntWritable(1);
		String[] arr = value.toString().split("\t");
		Stu stu = new Stu(Integer.parseInt(arr[0]),arr[1],Integer.parseInt(arr[2]),Integer.parseInt(arr[3]));
		context.write(stu,one);
}

Reduce阶段的reduce()函数如下:


protected void reduce(Stu arg0, Iterable<IntWritable> arg1,Context arg2)throws IOException, InterruptedException {
		int sum = 0;
		for(IntWritable val : arg1){
			sum += val.get();
		}
		if(sum == 2){
			arg2.write(arg0,NullWritable.get());
		}
}




  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
假设有一个销售数据的文件,每行记录包含销售日期、销售额和销售地点,格式如下: ``` 2019-05-01,2000,New York 2019-05-02,1500,Beijing 2019-05-02,3000,Shanghai 2019-05-03,2500,New York ``` 现在需要使用MapReduce对这个文件按照销售额进行排序,可以按照以下步骤实现: 1. 编写Mapper类,将每行记录拆分成键值对,其键为销售额,值为原始记录。Mapper类的代码如下: ```java public class SalesMapper extends Mapper<LongWritable, Text, DoubleWritable, Text> { private DoubleWritable sales = new DoubleWritable(); private Text record = new Text(); public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String[] fields = value.toString().split(","); double salesAmount = Double.parseDouble(fields[1]); sales.set(salesAmount); record.set(value.toString()); context.write(sales, record); } } ``` 2. 编写Reducer类,将每个键值对按照键(销售额)进行排序后输出。Reducer类的代码如下: ```java public class SalesReducer extends Reducer<DoubleWritable, Text, DoubleWritable, Text> { public void reduce(DoubleWritable key, Iterable<Text> values, Context context) throws IOException, InterruptedException { for (Text value : values) { context.write(key, value); } } } ``` 3. 在Driver类配置Job,并将Mapper和Reducer类作为任务的输入和输出。其,需要使用`job.setSortComparatorClass`方法设置自定义的排序比较器,以实现按照销售额进行排序。 ```java public class SalesSorter { public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = Job.getInstance(conf, "Sales Sorter"); job.setJarByClass(SalesSorter.class); job.setMapperClass(SalesMapper.class); job.setReducerClass(SalesReducer.class); job.setOutputKeyClass(DoubleWritable.class); job.setOutputValueClass(Text.class); job.setSortComparatorClass(DoubleWritableComparator.class); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); System.exit(job.waitForCompletion(true) ? 0 : 1); } } ``` 4. 编写自定义的排序比较器DoubleWritableComparator,实现按照Double类型的键(销售额)进行排序。代码如下: ```java public class DoubleWritableComparator extends WritableComparator { protected DoubleWritableComparator() { super(DoubleWritable.class, true); } @Override public int compare(WritableComparable a, WritableComparable b) { DoubleWritable aw = (DoubleWritable) a; DoubleWritable bw = (DoubleWritable) b; return -aw.compareTo(bw); // 按照销售额从大到小排序 } } ``` 5. 在命令行执行以下命令启动MapReduce任务: ``` hadoop jar path/to/jar SalesSorter input output ``` 其,`path/to/jar`是你的Java程序打包成的jar文件的路径,`input`是输入文件的路径,`output`是输出文件的路径。 执行完毕后,输出文件的记录将按照销售额从大到小排序。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值