mapreduce框架中的全局变量的设置

最新推荐文章于 2024-05-06 11:11:06 发布

尖头核桃007

最新推荐文章于 2024-05-06 11:11:06 发布

阅读量4.9k

点赞数 1

分类专栏： hadoop 文章标签： mapreduce hadoop hdfs 全局变量分布式文件系统

本文链接：https://blog.csdn.net/coder_farmer_2015/article/details/44625655

版权

本文探讨了MapReduce中设置全局变量的方法，通过`setup`方法获取或设置Configuration中的参数，例如在示例中设置并获取整型变量nAge。这种全局变量的使用对于在MapReduce任务中传递配置信息至关重要。

摘要由CSDN通过智能技术生成

最近刚完成了一个基于mapreduce的autoencoder并行算法设计与实现，打算写一篇代码剖析，在此之前先整理一下用到的几个技术点。

--------------------------------------------------------------------------------------------------------------------------------

先说一下mapreduce中全局变量的设置。

全局变量的背景分析：

先简单说一下mapreduce框架，推荐一本书《Hadoop实战》，如果想对hadoop、HDFS等相关技术有更加深入的了解的话可以翻一翻这本书。mapreduce的过程主要分为对输入数据的处理形成初始键值对，map，shuffle，reduce几个过程。初始键值对在map中进行处理形成中间键值对，经过shuffle阶段的排序分片输送给reduce，reduce完成对中间键值对的处理形成最终的结果。程序员在客户端编写mapreduce的程序，然后提交job给JobTracker，JobTracker会复制该job相关的jar包，input split，配置文件等资源到JobTracker文件系统中的文件夹，然后会将任务下派到各个TaskTracker中，每个TaskTracker中可以同时执行指定数目的task任务（TaskTracker可以执行map任务也可以执行redue任务，map任务的优先级高于reduce任务）。TaskTracker分配到task任务以后会从共享文件系统中拷贝包括jar在内的资源到本地。这里要解释一下，分布式文件系统HDFS是由多个主机的文件系统构成的，不同主机通过网络互连，HDFS中以block为单位（默认64M），当要存储的文件大于64M时会被切分成不同的块分布存储（可能存在不同的主机上！），DataNode和TaskTracker分布在不同的主机上，一般TaskTracker优先处理本地DataNode上的数据。当task获得资源后，TaskTracker会为其创建一个JVM开始执行。map任务接收input split后会实例化Mapper的实现类，然后调用其中的run方法，run方法的代码如下。