hadoop wordcount运行过程

最新推荐文章于 2022-05-18 10:10:55 发布

小朋友,你是否有很多问号?

最新推荐文章于 2022-05-18 10:10:55 发布

阅读量571

点赞数

分类专栏： hadoop 文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/oracle8090/article/details/52474876

版权

hadoop 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

1.分布式的运算程序往往分成至少两个阶段

2.第一个阶段的task并发实例各司其职各自为政互不相干，完全并行（map阶段 maptask）

3.第二个阶段的taks并发实例互不相干，但是他们的数据依赖上一个阶段的task并发实例的输出(reduce reduce task)

4.MAPREDUCE编程模型只能包含一个map阶段和一个reduce阶段，如果用户的业务逻辑非常复杂，那只能来多个mapreduce程序，串行运行。

maptask是一个管理者，具体的读数据用的是 inputFormat

运行过程：

1、客户端submit时候，会调用job.submiter方法，

2、创建一个jobSubmiter,里面有一个成员cluster,cluster 构造一个成员（代理对象），

如果提交到yarn去，代理对象为yarnRunner,如果提交到本地mr程序运行模拟器，代理对象为localJobRunner,

3、通过代理对象向resourceManager申请提交一个application,

4、拿到提交资源的路径stagingDir和jobID,拼接为一个job资源提交路径，

5、客户端调用FileInputFormat.getSplit()获取切片规划，（根据job 和jar包参数配置，找到要处理的数据文件，

遍历（规划切片）目录下的每个文件，获取文件大小，计算切片大小，

形成切片，讲切片信息写入切片规划中（任务切片是一个逻辑划分，默认跟block一样，如果最后的切片没有block的1.1倍就不再单独切）,(2.0+版本 hadoop的数据块默认大小为128 M ,也就是说 200M的文件会切分成两个逻辑划分)）

List<FileSplit>,将List序列化为一个文件job.split，将该文件copy到job资源提交路径中，然后将job相关参数写为job.xml，copy到job资源提交路径中，

获取job的jar包，将其copy到job资源提交路径中

6、资源提交完毕，申请运MrAppMaster

7、reourceManager将提交的参数封装成一个task对象，这个任务就会进入队列，

8、nodemanager领取task任务

9、在nodemanager生成一个container容器，下载job资源到本地，启动MRAppMaster,

10、MRAppMaster根据提交的文件，根据文件获得有多少个切片，每个切片的文件路径，以及偏移量，向resource manager申请运行map task的容器，（一个切片对应一个maptask实例），

将任务放到任务队列中

11、MRAppMaster发送程序启动脚本，再各个容器上启动map如果有map task失败就重新再申请一个去处理切片，

然后inputFormat 讲文本数据读进来，每行处理一次，map(k,v)，context.write(k,v)

将产生结果文件，告诉MRAppMaster执行完成，

12、mrAppmaster向resource manager申请启动容器运行reduce task 程序，

开启N个reduce task ，reduce 向nodemanager获取map端相应分区数据，通过reduce 的 outputFormat，将结果输出到

hdfs上，appclication运行完毕后，

13、MRAPPmaster向RM注销自己

小朋友,你是否有很多问号?

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop wordcount运行过程

1.分布式的运算程序往往分成至少两个阶段2.第一个阶段的task并发实例各司其职各自为政互不相干，完全并行（map阶段maptask）3.第二个阶段的taks并发实例互不相干，但是他们的数据依赖上一个阶段的task并发实例的输出(reducereducetask)4.MAPREDUCE编程模型只能包含一个map阶段和一个reduce阶段，如果用户的业务逻辑非常复杂，那只能来多个
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。