MapReduce WritableComparable排序

本文详细介绍了MapReduce框架中的排序过程,包括MapTask和ReduceTask如何对数据进行排序,以及默认的字典序排序和快速排序实现。此外,还探讨了部分排序、全排序和辅助排序(分组排序)的概念。通过自定义WritableComparable接口的compareTo方法,可以实现基于特定字段的倒序排序。最后,文章讨论了二次排序的概念,即在compareTo中使用两个判断条件进行排序。
摘要由CSDN通过智能技术生成

一、概述

  • 排序是MapReduce框架中最重要的操作之一。

  • MapTask和Reduce Task均会对数据按照key进行排序。该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序,而不管逻辑上是否需要。

  • 默认排序是按照字典顺序排序,且实现该排序的方法是快速排序。

  • 对于MapTask,它会将处理的结果暂时放到环形缓冲区中,当环形缓冲区使用率达到一定阈值后,再对缓冲区中的数据进行一次快速排序,并将这些有序数据溢写到磁盘上,而当数据处理完毕后,它会对磁盘上所有文件进行归并排序

  • 对于ReduceTask,它从每个MapTask.上远程拷贝相应的数据文件,如果文件大小超过一定阈值,则溢写磁盘上,否则存储在内存中。如果磁盘上文件数目达到一定阈值,则进行一次归并排序以生成一个更大文件;如果内存中文件大小或者数目超过一定阈值,则进行一次合并后将数据溢写到磁盘 上。当所有数据拷贝完毕后,Reduce Task统一对内存和磁盘上的所有数据进行一次归并排序。

二、排序分类

  • 部分排序
    MapReduce根据输入记录的键对数据集排序。保证输出的每个文件内部有序。
  • 全排序
    最终输出结果只有一个文件,且文件内部有序。实现方式是只设置一个ReduceTask. 但该方法在
    处理大型文件时效率极低,因为-台机器处理所有文件,完全丧失了MapReduc e所提供的并行架构。
  • 辅助排序: (GroupingComparator分组)
    在Reduce端对key进行分组。应用于:在接收的key为bean对象时,想让一个或几个字段相同(全部
    字段比较不相同)的key进入到同一个reduce方法时, 可以采用分组排序。
  • 二次排序
    在自定义排序过程中,如果compareTo中的判断条件为两个即为二次排序。

三、自定义排序WritableComparable原理分析

bean对象做为key传输,需要实现WritableComparable接口重写compareTo方法,就可以实现排序。

@Override
public int compareTo(FlowBean bean) {

	int result;
		
	// 按照总流量大小,倒序排列
	if (this.sumFlow > bean.getSumFlow()) {
		result = -1;
	}else if (this.sumFlow < bean.getSumFlow()) {
		result = 1;
	}else {
		result = 0;
	}

	return result;
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
假设有一个销售数据的文件,每行记录包含销售日期、销售额和销售地点,格式如下: ``` 2019-05-01,2000,New York 2019-05-02,1500,Beijing 2019-05-02,3000,Shanghai 2019-05-03,2500,New York ``` 现在需要使用MapReduce对这个文件按照销售额进行排序,可以按照以下步骤实现: 1. 编写Mapper类,将每行记录拆分成键值对,其中键为销售额,值为原始记录。Mapper类的代码如下: ```java public class SalesMapper extends Mapper<LongWritable, Text, DoubleWritable, Text> { private DoubleWritable sales = new DoubleWritable(); private Text record = new Text(); public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String[] fields = value.toString().split(","); double salesAmount = Double.parseDouble(fields[1]); sales.set(salesAmount); record.set(value.toString()); context.write(sales, record); } } ``` 2. 编写Reducer类,将每个键值对按照键(销售额)进行排序后输出。Reducer类的代码如下: ```java public class SalesReducer extends Reducer<DoubleWritable, Text, DoubleWritable, Text> { public void reduce(DoubleWritable key, Iterable<Text> values, Context context) throws IOException, InterruptedException { for (Text value : values) { context.write(key, value); } } } ``` 3. 在Driver类中配置Job,并将Mapper和Reducer类作为任务的输入和输出。其中,需要使用`job.setSortComparatorClass`方法设置自定义的排序比较器,以实现按照销售额进行排序。 ```java public class SalesSorter { public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = Job.getInstance(conf, "Sales Sorter"); job.setJarByClass(SalesSorter.class); job.setMapperClass(SalesMapper.class); job.setReducerClass(SalesReducer.class); job.setOutputKeyClass(DoubleWritable.class); job.setOutputValueClass(Text.class); job.setSortComparatorClass(DoubleWritableComparator.class); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); System.exit(job.waitForCompletion(true) ? 0 : 1); } } ``` 4. 编写自定义的排序比较器DoubleWritableComparator,实现按照Double类型的键(销售额)进行排序。代码如下: ```java public class DoubleWritableComparator extends WritableComparator { protected DoubleWritableComparator() { super(DoubleWritable.class, true); } @Override public int compare(WritableComparable a, WritableComparable b) { DoubleWritable aw = (DoubleWritable) a; DoubleWritable bw = (DoubleWritable) b; return -aw.compareTo(bw); // 按照销售额从大到小排序 } } ``` 5. 在命令行中执行以下命令启动MapReduce任务: ``` hadoop jar path/to/jar SalesSorter input output ``` 其中,`path/to/jar`是你的Java程序打包成的jar文件的路径,`input`是输入文件的路径,`output`是输出文件的路径。 执行完毕后,输出文件中的记录将按照销售额从大到小排序
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值