Hadoop学习之MapReduce(三)

最新推荐文章于 2020-04-20 10:34:16 发布

skyWalker_ONLY

最新推荐文章于 2020-04-20 10:34:16 发布

阅读量3.1k

点赞数

分类专栏： Hadoop-1.x Hadoop 文章标签： Hadoop mapreduce 配置管理 io 内存管理

本文链接：https://blog.csdn.net/skywalker_only/article/details/21533943

版权

Hadoop 同时被 2 个专栏收录

49 篇文章 22 订阅 ¥9.90 ¥99.00

订阅专栏

Hadoop-1.x

19 篇文章 0 订阅

订阅专栏

本文详细介绍了Hadoop MapReduce任务的执行过程，包括TaskTracker如何在不同JVM中运行mapper和reducer任务，以及如何通过配置参数如`mapred.map.child.java.opts`和`mapred.reduce.child.java.opts`定制子任务的JVM环境。此外，还探讨了MapReduce的内存管理，包括子任务的最大虚拟内存设置和内存性能调优参数，强调了内存管理对任务性能的影响。最后，讨论了map任务的缓冲区策略和reduce阶段的洗牌与合并过程，以及相关参数对效率的影响。

摘要由CSDN通过智能技术生成

在学习过MapReduce框架的几个关键类和接口后（只是简单的说明了类或者接口的作用及使用方式，要想深入了解如何工作的就需要深入研究源代码了，这也是计划中的学习任务），接下来看看任务的执行和环境，主要涉及的还是一些参数。TaskTracker将mapper/reducer任务作为子进程在不同的jvm中执行，子任务继承了父进程TaskTracker的环境。用户可以通过 mapred.{map|reduce}.child.java.opts配置参数指定额外的选项，比如通过-Djava.library.path=<>指定运行时链接器搜索共享库的非标准的路径。如果mapred.{map|reduce}.child.java.opts参数包含符号@taskid@ ，那么使用MapReduce任务的taskid的值替换@taskid@ 。需要注意的是mapred.{map|reduce}.child.java.opts只用于管理从TaskTracker加载的子任务。

下面是一个包含多个参数和替换的例子，展示了jvm的GC日志，启动了无密码登录的JVM JMX代理（这样可以连接到控制台等以查看子进程内存，线程和取得线程dump），分别设置了map和reduce子jvm的最大堆大小为512MB和1024MB，通过java.library.path为子jvm添加了额外的路径。代码如下：

了解本专栏