最近刚完成了一个基于mapreduce的autoencoder并行算法设计与实现,打算写一篇代码剖析,在此之前先整理一下用到的几个技术点。
--------------------------------------------------------------------------------------------------------------------------------
先说一下mapreduce中全局变量的设置。
全局变量的背景分析:
先简单说一下mapreduce框架,推荐一本书《Hadoop实战》,如果想对hadoop、HDFS等相关技术有更加深入的了解的话可以翻一翻这本书。mapreduce的过程主要分为对输入数据的处理形成初始键值对,map,shuffle,reduce几个过程。初始键值对在map中进行处理形成中间键值对,经过shuffle阶段的排序分片输送给reduce,reduce完成对中间键值对的处理形成最终的结果。程序员在客户端编写mapreduce的程序,然后提交job给JobTracker,JobTracker会复制该job相关的jar包,input split,配置文件等资源到JobTracker文件系统中的文件夹,然后会将任务下派到各个TaskTracker中,每个TaskTracker中可以同时执行指定数目的task任务(TaskTracker可以执行map任务也可以执行redue任务,map任务的优先级高于reduce任务)。TaskTracker分配到task任务以后会从共享文件系统中拷贝包括jar在内的资源到本地。这里要解释一下,分布式文件系统HDFS是由多个主机的文件系统构成的,不同主机通过网络互连,HDFS中以block为单位(默认64M),当要存储的文件大于64M时会被切分成不同的块分布存储(可能存在不同的主机上!),DataNode和TaskTracker分布在不同的主机上,一般TaskTracker优先处理本地DataNode上的数据。当task获得资源后,TaskTracker会为其创建一个JVM开始执行。map任务接收input split后会实例化Mapper的实现类,然后调用其中的run方法,run方法的代码如下。
- /**
- * Expert users can override this method for more complete control over the
- * execution of the Mapper.