经典案例——TopN

*空冥

于 2023-03-22 18:40:33 发布

阅读量244

点赞数 1

文章标签： java 数据结构数据库

本文链接：https://blog.csdn.net/qq_61617700/article/details/129716405

版权

该博客详细介绍了如何使用Hadoop MapReduce处理输入数据，通过TopNMapper和TopNReducer类实现局部和全局的TopN排序。Mapper阶段利用TreeMap存储每个输入分片的前n个记录，并在清理阶段输出。Reducer阶段则对所有mapper输出进行汇总，再次应用TreeMap并自定义Comparator以获取最终的TopN结果。

摘要由CSDN通过智能技术生成

Mapper 过程
使用默认的 mapper 数据，一个 input split（输入分片）由一个 mapper 来处理。
在每一个 map task 中，我们找到这个 input split 的前 n 个记录。这里我们用 TreeMap这个数据结构来保存 top n 的数据，TreeMap 默认按键的自然顺序升序进行排序。下一步，我们来加入新记录到 TreeMap 中去。在 map 中，我们对每一条记录都尝试去更新 TreeMap，最后我们得到的就是这个分片中的 local top n 的 n 个值。
以往的 mapper 中，我们都是处理一条数据之后就 context.write 一次。而在这里是把所有这个 input split 的数据处理完之后再进行写入。所以，我们可以把这个 context.write放在 cleanup 里执行。cleanup 就是整个 mapper task 执行完之后会执行的一个函数。
TreeMap 是一个有序的 key-value 集合，默认会根据其键的自然顺序进行排序，也可根据创建映射时提供的 Comparator 进行排序。其 firstKey()方法用于返回当前这个集合第一个(最低)键。
Reducer 过程
只有一个 reducer，就是对 mapper 输出的数据进行再一次汇总，选出其中的 top n，即可达到我们的目的。注意的是，Treemap 默认是正序排列数据，要想满足求取 top n 倒序最大的 n 个，需要实现自己的 Comparator（）方法。

num.txt

10 3 8 7 6 5 1 2 9 4
11 12 17 14 15 20
19 18 13 16

最低0.47元/天解锁文章

*空冥

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
经典案例——TopN

这里我们用 TreeMap这个数据结构来保存 top n 的数据，TreeMap 默认按键的自然顺序升序进行排序。在 map 中，我们对每一条记录都尝试去更新 TreeMap，最后我们得到的就是这个分片中的 local top n 的 n 个值。只有一个 reducer，就是对 mapper 输出的数据进行再一次汇总，选出其中的 top n，即可达到我们的目的。注意的是，Treemap 默认是正序排列数据，要想满足求取 top n 倒序最大的 n 个，需要实现自己的 Comparator（）方法。
复制链接

扫一扫