mapreduce框架中的全局变量的设置

本文探讨了MapReduce中设置全局变量的方法,通过`setup`方法获取或设置Configuration中的参数,例如在示例中设置并获取整型变量nAge。这种全局变量的使用对于在MapReduce任务中传递配置信息至关重要。
摘要由CSDN通过智能技术生成

最近刚完成了一个基于mapreduce的autoencoder并行算法设计与实现,打算写一篇代码剖析,在此之前先整理一下用到的几个技术点。

--------------------------------------------------------------------------------------------------------------------------------

先说一下mapreduce中全局变量的设置。


全局变量的背景分析:


先简单说一下mapreduce框架,推荐一本书《Hadoop实战》,如果想对hadoop、HDFS等相关技术有更加深入的了解的话可以翻一翻这本书。mapreduce的过程主要分为对输入数据的处理形成初始键值对,map,shuffle,reduce几个过程。初始键值对在map中进行处理形成中间键值对,经过shuffle阶段的排序分片输送给reduce,reduce完成对中间键值对的处理形成最终的结果。程序员在客户端编写mapreduce的程序,然后提交job给JobTracker,JobTracker会复制该job相关的jar包,input split,配置文件等资源到JobTracker文件系统中的文件夹,然后会将任务下派到各个TaskTracker中,每个TaskTracker中可以同时执行指定数目的task任务(TaskTracker可以执行map任务也可以执行redue任务,map任务的优先级高于reduce任务)。TaskTracker分配到task任务以后会从共享文件系统中拷贝包括jar在内的资源到本地。这里要解释一下,分布式文件系统HDFS是由多个主机的文件系统构成的,不同主机通过网络互连,HDFS中以block为单位(默认64M),当要存储的文件大于64M时会被切分成不同的块分布存储(可能存在不同的主机上!),DataNode和TaskTracker分布在不同的主机上,一般TaskTracker优先处理本地DataNode上的数据。当task获得资源后,TaskTracker会为其创建一个JVM开始执行。map任务接收input split后会实例化Mapper的实现类,然后调用其中的run方法,run方法的代码如下。

  1. /** 
  2.  * Expert users can override this method for more complete control over the 
  3.  * execution of the Mapper. 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值