Hadoop-2.4.1学习之Map任务源码分析(上)

最新推荐文章于 2022-08-26 18:23:33 发布

skyWalker_ONLY

最新推荐文章于 2022-08-26 18:23:33 发布

阅读量3.1k

点赞数 2

分类专栏： Hadoop-2.x Hadoop 文章标签： Hadoop-2.4.1 源代码 Mapper SORT

本文链接：https://blog.csdn.net/skywalker_only/article/details/41845881

版权

Hadoop 同时被 2 个专栏收录

49 篇文章 22 订阅 ¥9.90 ¥99.00

订阅专栏

Hadoop-2.x

29 篇文章 18 订阅 ¥9.90 ¥99.00

订阅专栏

本文详细分析了Hadoop-2.4.1中Mapper任务的执行过程，从启动到执行Map阶段，再到Sort阶段，揭示了Mapper如何处理InputSplit，以及Mapper输出的分类和排序。Mapper任务的执行涉及TaskTask内部类，通过TaskUmbilicalProtocol进行父子进程通信。Mapper的执行主要由runNewMapper方法完成，包括实例化Mapper、InputFormat、RecordReader等对象，并依据Reducer数量调整阶段进度。Mapper的map方法对每个InputSplit的数据进行处理，执行用户的自定义映射逻辑。

摘要由CSDN通过智能技术生成

众所周知，Mapper是MapReduce编程模式中最重要的环节之一（另一个当然是Reducer了）。在Hadoop-2.x版本中虽然不再有JobTracker和TaskTracker，但Mapper任务的功能却没有变化，本篇文章将结合源代码深入分析Mapper任务时如何执行的，包括处理InputSplit，mapper的输出、对输出分类等。在进行分析之前先明确几个概念：作业、任务、任务的阶段和任务的状态，可以将作业理解为要最终实现的功能或目的，比如统计单词的数量，而任务就是对该作业的拆分，只负责一部分作业，比如在统计单词数量的例子中，将一个作业交由10个任务去完成。任务的阶段指的是当前任务在执行什么功能，比如map和分类功能，在hadoop中一个任务的阶段由枚举类Phase定义，具体有6个阶段：STARTING、MAP、SHUFFLE、SORT、REDUCE、CLEANUP。任务的状态指的是该任务所处于的状态，比如运行中，失败等，具体由枚举类State定义：RUNNING、SUCCEEDED、FAILED、UNASSIGNED、KILLED、COMMIT_PENDING、FAILED_UNCLEAN、KILLED_UNCLEAN。

在hadoop中map任务是由类MapTask表示的，该类提供了众多的内部类用于完成map任务，比如读取输入，收集输出等。在该类的开头语句块中定义了map

了解本专栏