MapReduce(九): 任务的运行

最新推荐文章于 2022-04-01 09:21:37 发布

dickens

最新推荐文章于 2022-04-01 09:21:37 发布

阅读量627

点赞数

分类专栏： Hadoop 文章标签： MapReduce

本文链接：https://blog.csdn.net/dickens/article/details/39007621

版权

Hadoop 专栏收录该内容

17 篇文章 1 订阅

订阅专栏

任务是由TaskTracker启动与本身隔离的JVM运行，所有任务的运行主类是Child，主类先初始化任务的路径，log参数后，然后根据不同的任务类型执行不同的操作。

TaskTracker在启动Child时传入的参数可见taskjvm.sh。启动时为Task初始化目录，task的目录在TaskTracker初始化的Job目录的下一级，为：/tmp/hadoop-<user>/mapred/local/taskTracker/<user>/jobcache/<jobID>/<taskId>，然后把TaskTacker在Job dir创建的job.xml拷贝到Task dir，因为child会添加一些该任务特有的参数到job.xml中。在Task dir下再创建Task work dir和Task tmp dir，目录名分别为work和tmp，作为task在运行任务时工作目录和临时目录用。

初始化完毕后，根据任务的类型分别启动setup，cleanup，Map或者Reduce任务。Child启动Map任务的类图如下：

Child根据任务的类型启动对应的MapTask任务还是ReduceTask，MapTask/ReduceTask再去加载由开发人员通过配置文件”mapred.map.runner.class”设置的任务执行类，默认为MapRunner类，开发人员必须要提供对Mapper类的实现用于完成Map业务的操作。Reduce的启动过程与Map的启动过程类似。Map任务通过配置” mapred.input.format.class”指定数据源读取的格式，默认实现为TextInputFormat类，该类还提供对数据源进行split的实现。通过设置” mapred.output.format.class”指定处理结果输出格式，默认实现为TextOutputFormat，key，value按照String格式输出到文件。