MR客户端Client源码分析

最新推荐文章于 2022-06-11 18:50:24 发布

人生路且修且行

最新推荐文章于 2022-06-11 18:50:24 发布

阅读量255

点赞数

分类专栏：大数据 Hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40929921/article/details/92800225

版权

大数据

客户端Client源码分析

客户端提供的资源：jar包 split清单配置生成的xml文件

*waitForCompletion --提交

*submit

*submitJobInternal 执行5件事

1.检查job的输入输出目录

2.*计算文件切片数量

3.设置/准备job运行环境

4.拷贝当前job的Jar包和配置到HDFS系统目录–隐藏目录

5.提交job到RS并且监控运行状态

*writeSplits

**writeNewSplits

*input

inputFormat<?, ?> input = ReflectionUtils.newInstance(job.getInputFormatClass(), conf);

*getInputFormatClass() 查看父类方法

*conf.getClass(INPUT_ FORMAT_CLASS_ATTR，TextInputFormat.class)

INPUT_ FORMAT_CLASS_ATTR在配置文件中找配置，如果用户有配置取用户配置，如果没有配置，取默认输入格式化类为文本Text类

*getSplits 查看父类方法FileInputFormat <k,v>

*minSize 默认1 maxSize 很大的值

*List 一个文件一个文件的处理，计算切片，输出文件中每一个切片，切片不可跨文件

*blkLocation 取文件的所有的块

*compteSp

最低0.47元/天解锁文章

人生路且修且行

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MR客户端Client源码分析

大数据第12天客户端Client源码分析客户端提供的资源：jar包 split清单配置生成的xml文件*waitForCompletion --提交 *submit *submitJobInternal 执行5件事 1.检查job的输入输出目录 2.*计算文件切片数量 3.设置/准备job运行环境 4.拷贝当前job的Jar包和配置到HDFS系统目录–...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。