hadoop 源码分析(一) jobClient 提交到JobTracker

最新推荐文章于 2019-09-09 15:43:17 发布

lykke2012

最新推荐文章于 2019-09-09 15:43:17 发布

阅读量147

点赞数

分类专栏： hadoop 文章标签： hadoop jobclient jobTracker

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lykke2012/article/details/84412302

版权

hadoop 专栏收录该内容

47 篇文章 0 订阅

订阅专栏

Hadoop 用了2年多了.从最初一起创业的11人20台服务器集群到后来独立搭建基于hadoop nutch的搜索引擎并商用化到现在也2年了.这两年来应用了很多新技术也经历了很多,从数据仓库的Hive pig 到mapreduce的编码去解决算法或是etl的问题等等都离不开hadoop.觉得用了2年多也到了该总结的时候了.故此想重新翻译hadoop 源码,按照不同的类方法的不同作用.也希望读到这篇博客的人和我一起经历这一段岁月,一起讲hadoop的核心结合实用主义传递给中国的开源软件使用者。

下图为 jobClient 提交到 Mapreduce 作业到JobTracker 核心逻辑。

1.JobProfile类：

　job的描述性元语,相当于bean的功能.其中包括:

user job的提交者

jobid 唯一的标志一个job的ID ->JobID 类生成：

--jobid 包括两部分.第一部分代表jobTracker 标志,第二部分代表时间.如果是本地job(local Job) 则为local,最后为 job数量,代表是第几个job

jobFile job运行时文件

url 定位该条job的描述性信息url

name job的名字

queueName job 队列名称,

2.JobStatus 类：

-- job的几种状态

running

successed

failed

prep

killed

3.copyAndConfigureFiles（）方法：

1.JobSubmissionFiles 工具类负责管理 job 相关文件：

conf 路径

jar 包路径

分布式缓存(distributed cache files(archives, libjars,)) 路径

拷贝job执行文件到 job执行目录

4.writeNewSplits（）

mapred.max.split.size 设置最小输入分片

mapred.max.split.size 最大分片的大小

计算输入分片

FileInputFormat -> getSplits（）->computeSplitSize（）方法

分片计算法：

1.首先获取文件的长度 length

2.获取blocksize

3. 获取最大分片大小 getMaxSplitSize

4.取 maxsize 和 block 中的较小者 A

5. 取最新分片和 A 中的最大者作为分片大小

6.如果文件长度 length/分片大小 >1.1 则调用FileSplit 分片

FileInputFormat 类:

setInputPaths（( Job job, Path... inputPaths) 可添加多个输入路径

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop 源码分析(一) jobClient 提交到JobTracker

Hadoop 用了2年多了.从最初一起创业的11人20台服务器集群到后来独立搭建基于hadoop nutch的搜索引擎并商用化到现在也2年了.这两年来应用了很多新技术也经历了很多,从数据仓库的Hive pig 到mapreduce的编码去解决算法或是etl的问题等等都离不开hadoop.觉得用了2年多也到了该总结的时候了.故此想重新翻译hadoop 源码,按照不同的类方法的不...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。