mapreduce的分组

最新推荐文章于 2023-12-30 17:26:36 发布

reasery

最新推荐文章于 2023-12-30 17:26:36 发布

阅读量775

点赞数

分类专栏：理论原理文章标签： mapreduce分组

本文链接：https://blog.csdn.net/reasery/article/details/83305732

版权

理论原理专栏收录该内容

20 篇文章 0 订阅

订阅专栏

分组：
如果是按照hadoop自带类型进行分组时，按照key相同进行分组

如果按照自定义类型key时，按照compareTo中的判断规则进行分组

需求：
求每个班成绩最好的学生信息
分组：班级
排序：成绩

key包含班级+成绩，也可以+名字，自定义类型，这样map输出的value可以是null
只需要按照成绩排序就可以了

分组求topN reduce端只需要取出第一个就可以了

创建自定义类StudentBean，作为map的输出
继承WritableComparable接口
private String name;
private String course;
private double avg;
@override
compareTo(){
	//先比较科目再比较分数，就会按照科目就行分组
	int tmp = this.getCourse.compareTo(o.getCourse)
	if(tmp == 0){
	//再比较分数
	}
	return tmp;
}
这样会根据course+avg进行分组排序，一条数据一组
---
写一个MyGroup类
实现WritableCompartor接口
重写构造方法，否则会有空指针异常
public MyGroup(){
	super(StudentBean.class,true)
}
重写compare方法
要求参数都是WritableComparable类型的
参数强转为StudentBean
StudentBean sb1 = (StudentBean)a;
StudentBean sb2 = (StudentBean)b;
return sb1.getCourse.compareTo(sb2.getCourse());

然后driver类中再加一句,指定分规则
job.setGroupingComparatorClass(MyGroup.class);

创建topN类
重写map和reduce

分组的时候，分组的字段一定要先进行排序，或者说排序中要有分组字段的排序

reasery

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
mapreduce的分组

分组：如果是按照hadoop自带类型进行分组时，按照key相同进行分组如果按照自定义类型key时，按照compareTo中的判断规则进行分组需求：求每个班成绩最好的学生信息分组：班级排序：成绩key包含班级+成绩，也可以+名字，自定义类型，这样map输出的value可以是null只需要按照成绩排序就可以了分组求topN reduce端只需要取出第一个就可以了创建自定义类Stud...
复制链接

扫一扫

专栏目录