分组Top N问题(二) - Hadoop MapReduce实现

本文探讨了如何使用Hadoop MapReduce解决分组Top N的问题,通过分析Mapper和Reducer阶段的工作原理,提出了一种利用TreeSet在Reducer端求解的方案,并详细解释了如何自定义groupingcomparator、partitioner来优化性能。
摘要由CSDN通过智能技术生成

前言:

在Hadoop中,排序是MapReduce的灵魂,MapTask和ReduceTask均会对数据按Key排序,这个操作是MR框架的默认行为,不管你的业务逻辑上是否需要这一操作。

技术点:

MapReduce框架中,用到的排序主要有两种:快速排序和基于堆实现的优先级队列(PriorityQueue)。

Mapper阶段: 

从map输出到环形缓冲区的数据会被排序(这是MR框架中改良的快速排序),这个排序涉及partition和key,当缓冲区容量占用80%,会spill数据到磁盘,生成IFile文件,Map结束后,会将IFile文件排序合并成一个大文件(基于堆实现的优先级队列),以供不同的reduce来拉取相应的数据。

Reducer阶段: 

从Mapper端取回的数据已是部分有序,Reduce Task只需进行一次归并排序即可保证数据整体有序。为了提高效率,Hadoop将sort阶段和reduce阶段并行化,在sort阶段,Reduce Task为内存和磁盘中的文件建立了小顶堆,保存了指向该小顶堆根节点的迭代器,并不断的移动迭代器,以将key相同的数据顺次交给reduce()函数处理,期间移动迭代器的过程实际上就是不断调整小顶堆的过程(建堆→取堆顶元素→重新建堆→取堆顶元素...),这样,sort和reduce可以并行进行。

分组Top n分析:

在数据处理中,经常会碰到这样一个场景,对表数据按照某一字段分组,然后找出各自组内最大的几条记录情形。针对这种分组Top N问题,我们利用Hive、MapReduce等多种工具实现一下。

场景模拟:

对类如下users表记录,取出不同grade下得分最多的两条记录

id	grade	score
1	  A    	10
2	  A   	40
3	  B   	30
4	  C   	20
5	  B   	10
6	  D   	40
7	  A   	30
8	  C   	20
9	  B   	10
10	  D   	40
11	  C   	30
12	  D   	20

最简单的办法是:

1、在maper阶段以grade为key,score为value,输出进入下一阶段
2、经过shuffle之后,相同grade的数据会发送给同一个reducer
3、然后,我们就可以在reducer中遍历某个grade的一组values,
4、这一组values对于score来说是无序的,进而需要在reducer中缓存这一组values,然后排序从而取到这一组values中的Top n记录。

Reduce端TreeSet方法进阶:

需要说明的是,求Top n,更简单的方法可以直接用内置的TreeMap或者TreeSet,这两者是基于红黑树的一种数据结构,内部维持key的次序,但每次添加新元素,其排序的开销要大于堆调整的开销。例如要找最大的10个元素,那么创建的是小顶堆。小顶堆的特性是根节点是最小元素。不需要对堆进行再排序,当堆的根节点被替换成新的元素时,需要进行堆化,以保持小顶堆的特性。

案例实现步骤:

以TreeSet方法为例,在maptask阶段以grade为key,score为value,分发给reducetask,然后在reducetask阶段定义一个TreeSet<

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值