hadoop--mapreduce排序

最新推荐文章于 2022-05-08 20:05:37 发布

gongrui_59

最新推荐文章于 2022-05-08 20:05:37 发布

阅读量516

点赞数

分类专栏： hadoop学习文章标签： hadoop mapreduce 排序算法

本文链接：https://blog.csdn.net/gongrui_59/article/details/75577540

版权

博客介绍了如何使用MapReduce实现特定的排序需求。默认的MapReduce排序仅按key升序，为达到第一列和第二列复合排序，文章创建了自定义类型SortTypeWritable，实现了WritableComparable接口并重写compareTo()方法，确保在相同第一列的情况下，按第二列升序排列。

摘要由CSDN通过智能技术生成

我们知道mapper端的分组排序都是根据key的，我们通过几个实例来体现。

#首先按照第一列升序排列，当第一列相同时，第二列升序排列

#当第一列相同时，求出第二列的最小值

一、使用mapreduce默认的排序算法

使用MapReduce默认排序算法代码如下所示，在代码中我将第一列作为键，第二列作为值。

package com.yc.hadoop.mapreduce.demo02;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;


public class TwoSortDemo {
	public static void main(String[] args) throws Exception {
		if(args.length < 2){
			throw new RuntimeException("参数个数不对，至少需要两个参数");
		}
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf,"TwoSortDemo");
		job.setJarByClass(TwoSortDemo.class);		
		
		job.setInputFormatClass(MyTextInputFormat.class);	
		
		
		job.setMapperClass(TwoSortMapper02.class);
		job.setMapOutputKeyClass(IntWritable.class);
		job.setMapOutputValueClass(IntWritable.class);
		
		//job.setReducerClass(TwoSortReduce.class);  //集群合并
		
		
		//输入文件操作
		Path[] inPaths = new Path[args.leng