经典案例——TopN

该博客详细介绍了如何使用Hadoop MapReduce处理输入数据,通过TopNMapper和TopNReducer类实现局部和全局的TopN排序。Mapper阶段利用TreeMap存储每个输入分片的前n个记录,并在清理阶段输出。Reducer阶段则对所有mapper输出进行汇总,再次应用TreeMap并自定义Comparator以获取最终的TopN结果。
摘要由CSDN通过智能技术生成
  • Mapper 过程
    使用默认的 mapper 数据,一个 input split(输入分片)由一个 mapper 来处理。
    在每一个 map task 中,我们找到这个 input split 的前 n 个记录。这里我们用 TreeMap这个数据结构来保存 top n 的数据,TreeMap 默认按键的自然顺序升序进行排序。下一步,我们来加入新记录到 TreeMap 中去。在 map 中,我们对每一条记录都尝试去更新 TreeMap,最后我们得到的就是这个分片中的 local top n 的 n 个值。
    以往的 mapper 中,我们都是处理一条数据之后就 context.write 一次。而在这里是把所有这个 input split 的数据处理完之后再进行写入。所以,我们可以把这个 context.write放在 cleanup 里执行。cleanup 就是整个 mapper task 执行完之后会执行的一个函数。
    TreeMap 是一个有序的 key-value 集合,默认会根据其键的自然顺序进行排序,也可根据创建映射时提供的 Comparator 进行排序。其 firstKey()方法用于返回当前这个集合第一个(最低)键。

  • Reducer 过程
    只有一个 reducer,就是对 mapper 输出的数据进行再一次汇总,选出其中的 top n,即可达到我们的目的。注意的是,Treemap 默认是正序排列数据,要想满足求取 top n 倒序最大的 n 个,需要实现自己的 Comparator()方法。

num.txt

 10 3 8 7 6 5 1 2 9 4
11 12 17 14 15 20
19 18 13 16

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值