11、MapReduce代码技巧总结

最新推荐文章于 2022-10-18 10:14:30 发布

George_Fal

最新推荐文章于 2022-10-18 10:14:30 发布

阅读量149

点赞数

文章标签：大数据 python

原文链接：https://my.oschina.net/liufukin/blog/2254157

版权

2019独角兽企业重金招聘Python工程师标准>>>

1、map的输入是无法控制的，它一行行读取进来

2、但是我们可以将它输入的value进行切割，组装成我们想要的key对象，以方便排序后在传输到reduce。

所以一般我们这么干：把需要排序的字段组装成自定义对象作为key，这个自定义对象需要实现writebleCompareble接口，
重写里面的compareto方法就行可以自定义排序了。

3、只要你在map中用的是自定义的bean作为key，那么这个信息一定是排序好的，并且交到同一个reduce中。

4、自定义patitionor

输入图片说明

使用：job.setPartitionerClass(Mypatitionor.class);

5、自定义GroupingComparator类规则来告诉reduce的iterator对key的判断。

输入图片说明

使用：job.setGroupingComparatorClass(ReduceCompareble.class);

6、自定义bean作为key，实现多个字段的排序

public class OrderBean implements WritableComparable<OrderBean> {

	private String orderID;
	private Double amount;

	[@Override](https://my.oschina.net/u/1162528)
	public void readFields(DataInput input) throws IOException {
		orderID = input.readUTF();
		amount = input.readDouble();

	}

	[@Override](https://my.oschina.net/u/1162528)
	public void write(DataOutput output) throws IOException {
		output.writeUTF(orderID);
		output.writeDouble(amount);
	}

	[@Override](https://my.oschina.net/u/1162528)
	public int compareTo(OrderBean o) {
		int cmp = this.orderID.compareTo(o.getOrderID());
		if (cmp == 0) {  //表示第一级相等，那么在判断第二级
    //compareTo默认是升序排序，加一个“-”表示降序排序。
			cmp = -this.amount.compareTo(o.getAmount());
		}
		return cmp;
	}
	
	[@Override](https://my.oschina.net/u/1162528)
	public String toString() {
		return this.orderID + "\t" + this.amount;
	}
}