分组:
如果是按照hadoop自带类型进行分组时,按照key相同进行分组
如果按照自定义类型key时,按照compareTo中的判断规则进行分组
需求:
求每个班成绩最好的学生信息
分组:班级
排序:成绩
key包含班级+成绩,也可以+名字,自定义类型,这样map输出的value可以是null
只需要按照成绩排序就可以了
分组求topN reduce端只需要取出第一个就可以了
创建自定义类StudentBean,作为map的输出
继承WritableComparable接口
private String name;
private String course;
private double avg;
@override
compareTo(){
//先比较科目再比较分数,就会按照科目就行分组
int tmp = this.getCourse.compareTo(o.getCourse)
if(tmp == 0){
//再比较分数
}
return tmp;
}
这样会根据course+avg进行分组排序,一条数据一组
---
写一个MyGroup类
实现WritableCompartor接口
重写构造方法,否则会有空指针异常
public MyGroup(){
super(StudentBean.class,true)
}
重写compare方法
要求参数都是WritableComparable类型的
参数强转为StudentBean
StudentBean sb1 = (StudentBean)a;
StudentBean sb2 = (StudentBean)b;
return sb1.getCourse.compareTo(sb2.getCourse());
然后driver类中再加一句,指定分规则
job.setGroupingComparatorClass(MyGroup.class);
创建topN类
重写map和reduce
分组的时候,分组的字段一定要先进行排序,或者说排序中要有分组字段的排序