GroupingComparator分组排序

最新推荐文章于 2022-03-10 16:38:25 发布

开心麻薯

最新推荐文章于 2022-03-10 16:38:25 发布

阅读量413

点赞数

文章标签： hadoop

本文链接：https://blog.csdn.net/sx0809/article/details/106593800

版权

GroupingComparator分组排序

GroupingComparator是在reduce阶段分组来使用的，由于reduce阶段，如果key相同的一组，只取第一个key作为key，迭代所有的values。如果reduce的key是自定义的bean，我们只需要bean里面的某个属性相同就认为这样的key是相同的，这是我们就需要之定义GroupCoparator来“欺骗”reduce了。我们需要理清楚的还有map阶段你的几个自定义： parttioner中的getPartition（）这个是map阶段自定义分区， bean中定义CopmareTo()是在溢出和merge时用来来排序的。

setOutputValueGroupingComparator是用来决定group划分，一个group一个iter因此，一个group中的所有元素的key都是compare==0的。

setOutputKeyComparatorClass 设置的是key的比较器，默认是有一个的。因为需要不同的key值之间共享下values所用用这个比较器，比如，进来了两个key 值是34 和45 如果通过group比较一样的话，那么先输入的key的34 的values和后进入的45的values合并在一起共同作为key是34的value。那KEY 45的value合并到34中了。在输出结果中,key 45 就不会被送到reduce了而他的value被送到key 34中了。

调用x.compareTo(y)时，根据返回的整数值来确定x与y的位置，当返回值为正整数时，x在y后面。可以这样理解——x与y比较，正数大于0，说明x比y大，所以x要排在y后面。同理，当返回值为负数时，x在y前面。当返回值为0，x和y相等。

package cn.feizhou.secondarysort;
 
 
import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.io.WritableComparator;
 
/**
 * 利用reduce端的GroupingComparator来实现将一组bean看成相同的key,本质是相同的Id分为一组 
 *
 */
public class ItemidGroupingComparator extends WritableComparator {
 
	//传入作为key的bean的class类型，以及制定需要让框架做反射获取实例对象
	protected ItemidGroupingComparator() {
		super(OrderBean.class, true);
	}
	
 
	@Override
	public int compare(WritableComparable a, WritableComparable b) {
		OrderBean abean = (OrderBean) a;
		OrderBean bbean = (OrderBean) b;
		
		//比较两个bean时，指定只比较bean中的orderid
		return abean.getItemid().compareTo(bbean.getItemid());
		
	}
 
}
----------------------------------------------
/**
 * 分区
 *
 */
public class ItemIdPartitioner extends Partitioner<OrderBean, NullWritable>{
 
	@Override
	public int getPartition(OrderBean bean, NullWritable value, int numReduceTasks) {
		//相同id的订单bean，会发往相同的partition
		//而且，产生的分区数，是会跟用户设置的reduce task数保持一致
		//假如numReduceTasks=2，那么ID是奇数的分为一区，偶数的分为一区
		return (bean.getItemid().hashCode() & Integer.MAX_VALUE) % numReduceTasks;
		
	}
 
}
----------------------------------------------
/**
 * 订单类
 */
public class OrderBean implements WritableComparable<OrderBean>{
 
	private Text itemid;//ID
	private DoubleWritable amount;//价格
 
	public OrderBean() {
	}
 
	public OrderBean(Text itemid, DoubleWritable amount) {
		set(itemid, amount);
 
	}
 
	public void set(Text itemid, DoubleWritable amount) {
		this.itemid = itemid;
		this.amount = amount;
 
	}
 
 
 
	public Text getItemid() {
		return itemid;
	}
 
	public DoubleWritable getAmount() {
		return amount;
	}
 
 
 
	@Override
	public int compareTo(OrderBean o) {
		//如果ID相同，按价格降序
		int cmp = this.itemid.compareTo(o.getItemid());
		if (cmp == 0) {
			cmp = -this.amount.compareTo(o.getAmount());
		}
		return cmp;
	}
 
	@Override
	public void write(DataOutput out) throws IOException {
		out.writeUTF(itemid.toString());
		out.writeDouble(amount.get());
		
	}
 
	@Override
	public void readFields(DataInput in) throws IOException {
		String readUTF = in.readUTF();
		double readDouble = in.readDouble();
		
		this.itemid = new Text(readUTF);
		this.amount= new DoubleWritable(readDouble);
	}
 
 
	@Override
	public String toString() {
 
		return itemid.toString() + "\t" + amount.get();
		
	}
 
}
 
----------------------------------------------
/**
 * 
 *
 */
public class SecondarySort {
	
	static class SecondarySortMapper extends Mapper<LongWritable, Text, OrderBean, NullWritable>{
		
		OrderBean bean = new OrderBean();
		
		@Override
		protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
 
			String line = value.toString();
			String[] fields = StringUtils.split(line, ",");
			
			bean.set(new Text(fields[0]), new DoubleWritable(Double.parseDouble(fields[2])));
			
			context.write(bean, NullWritable.get());
			
		}
		
	}
	
	static class SecondarySortReducer extends Reducer<OrderBean, NullWritable, OrderBean, NullWritable>{
		
		
		//到达reduce时，相同id的所有bean已经被看成一组，且金额最大的那个一排在第一位,这边只要第一个
		@Override
		protected void reduce(OrderBean key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {
			context.write(key, NullWritable.get());
		}
	}
	
	
	public static void main(String[] args) throws Exception {
		
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf);
		
		job.setJarByClass(SecondarySort.class);
		
		job.setMapperClass(SecondarySortMapper.class);
		job.setReducerClass(SecondarySortReducer.class);
		
		
		job.setOutputKeyClass(OrderBean.class);
		job.setOutputValueClass(NullWritable.class);
		
		FileInputFormat.setInputPaths(job, new Path("H:/test"));
		FileOutputFormat.setOutputPath(job, new Path("H:/out"));
		
		//在此设置自定义的Groupingcomparator类 
		job.setGroupingComparatorClass(ItemidGroupingComparator.class);
		//定义分区算法
		job.setPartitionerClass(ItemIdPartitioner.class);
		
		//定义分区参数
		job.setNumReduceTasks(2);
		
		job.waitForCompletion(true);


       // 1 获取配置信息
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);

        // 2 设置jar包加载路径
        job.setJarByClass(OrderDriver.class);

        // 3 加载map/reduce类
        job.setMapperClass(OrderMapper.class);
        job.setReducerClass(OrderReducer.class);

        // 4 设置map输出数据key和value类型
        job.setMapOutputKeyClass(OrderBean.class);
        job.setMapOutputValueClass(NullWritable.class);

        // 5 设置最终输出数据的key和value类型
        job.setOutputKeyClass(OrderBean.class);
        job.setOutputValueClass(NullWritable.class);

        // 6 设置输入数据和输出数据路径
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        // 10 设置reduce端的分组
        job.setGroupingComparatorClass(ItemidGroupingComparator.class);

        // 7 设置分区
        job.setPartitionerClass(ItemIdPartitioner.class);

        // 8 设置reduce个数
        job.setNumReduceTasks(3);

        // 9 提交
        boolean result = job.waitForCompletion(true);
        System.exit(result ? 0 : 1);
		
	}
 
}

0000001 Pdt_01  222.8
0000002 Pdt_05  722.4
0000001 Pdt_05  25.8
0000003 Pdt_01  222.8
0000003 Pdt_01  33.8
0000002 Pdt_03  522.8
0000002 Pdt_04  122.4