Hadoop-2.4.1学习之Mapper和Reducer

最新推荐文章于 2025-06-18 00:04:05 发布

skyWalker_ONLY

最新推荐文章于 2025-06-18 00:04:05 发布

阅读量1.1w

点赞数 6

CC 4.0 BY-SA版权

分类专栏： Hadoop-2.x Hadoop 文章标签： Hadoop-2.4.1 Mapper Reducer

本文链接：https://blog.csdn.net/skywalker_only/article/details/40820275

Hadoop 同时被 2 个专栏收录

49 篇文章 ¥9.90 ¥99.00

订阅专栏

Hadoop-2.x

29 篇文章 ¥9.90 ¥99.00

订阅专栏

本文详细介绍了Hadoop-2.4.1中的MapReduce框架，包括MapReduce的工作原理、Mapper和Reducer的角色。Mapper作为独立任务，将输入记录转换为中间记录；Reducer则对相同键的中间值进行归约处理。程序员可以自定义Mapper和Reducer的行为，例如通过Job.setMapperClass()和Job.setReducerClass()设置Mapper和Reducer类，以及通过Job.setGroupingComparatorClass()和Job.setSortComparatorClass()控制分组和排序规则。此外，文中还讨论了Reducer的数量设置及其对性能的影响。

MapReduce允许程序员能够容易地编写并行运行在大规模集群上处理大量数据的程序，确保程序的运行稳定可靠和具有容错处理能力。程序员编写的运行在MapReduce上的应用程序称为作业（job），Hadoop既支持用Java编写的job，也支持其它语言编写的作业，比如Hadoop Streaming（shell、python）和Hadoop Pipes（c++）。Hadoop-2.X不再保留Hadoop-1.X版本中的JobTracker和TaskTracker组件，但这并不意味着Hadoop-2.X不再支持MapReduce作业，相反Hadoop-2.X通过唯一的主ResourceManager、每个节点一个的从NodeManager和每个应用程序一个的MRAppMaster保留了对MapReduce作业的向后兼容。在新版本中MapReduce作业依然由Map和Reduce任务组成，Map依然接收由MapReduce框架将输入数据分割为数据块，然后Map任务以完全并行的方式处理这些数据块，接着MapReduce框架对Map任务的输出进行排序，并将结果做为Reduce任务的输入，最后由Reduce任务输出最终的结果，在整个执行过程中MapReduce框架负责任务的调度，监控和重新执行失败的任务等。

通常计算节点和存储节点是相同的，MapReduce框架会有效地将任务安排在存储数据的节点上，有助于降低传输数据时的带宽使用量。MapReduce应用程序通过实现或者继承合适的接口或类提供了map和reduce函数，这两个函数负责Map任务和Reduce任务。作业客户端将编写好的作业提交给ResourceManager，而不再是JobTracker，Reso

了解本专栏