WordCount程序运行流程分析

最新推荐文章于 2022-03-09 16:55:52 发布

墨染百城

最新推荐文章于 2022-03-09 16:55:52 发布

阅读量1.1k

点赞数

分类专栏： Hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mrbcy/article/details/61919414

版权

Hadoop 专栏收录该内容

29 篇文章 0 订阅

订阅专栏

在job.submit()时，客户端会去查看输入文件的规模，并根据输入的文件规模决定使用多少个MapperTask来运行Job。同时还会进行任务的规划，划分具体哪个MapTask处理哪个数据文件的具体范围。

等到Job被提交给YARN集群后，ResourceManager会根据当前集群中各节点的情况，选择一台机器启动MR Appmaster,并把Job相关的信息都交给MR Appmaster。然后MR Appmaster就根据任务的分片及数据的分布情况启动对应的MapTask。

然后MapTask就调用InputFormat组件去读取对应的文件，每读取一行就调用Mapper中的map方法。

Mapper输出结果后交给OutputCollector，将数据收集后放入分区且排序的文件中。

等到MapTask全都运行完后再启动ReduceTask。ReduceTask从各个节点的OutputCollector中取属于自己的分区数据。按照key分类，一组调用一次Reducer类中的reduce方法。

然后reduce方法会输出，调用OutputFormat最终写入HDFS中。每一个ReduceTask的输出分到一个Part中。

示意图如下所示：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

墨染百城 CSDN认证博客专家 CSDN认证企业博客

码龄8年

187: 原创

9万+: 周排名

168万+: 总排名

49万+: 访问

: 等级

5316: 积分

252: 粉丝

224: 获赞

151: 评论

869: 收藏

私信

关注

热门文章

分类专栏

Mproxy项目实录 7篇
Java并发编程 2篇
Linux基础 5篇
运维 6篇
大数据框架 31篇
Java基础 28篇
自定义rpc框架 13篇
maven 1篇
TDD 5篇
书山有路 16篇
测试
软件测试的艺术 4篇
Hadoop 29篇
Ambari 1篇
Java并发编程 1篇
Python 15篇
Mproxy项目实录 7篇
爬虫 2篇
信息检索笔记 2篇
LeetCode 41篇
随笔 5篇
职场 4篇
Hive 11篇
算法 5篇
Scala 1篇
SQL练习 2篇
SQL学习 15篇
flume 1篇
管理软件 1篇

最新评论

【SQL练习】经典SQL练习题
大数据-: 19题跟21题有什么区别哇
【SQL练习】经典SQL练习题
weixin_43840217: 第42题，答案select *会报错，个人理解[code=sql] SELECT s1.sno, s1.cno, s1.degree FROM scores s1 INNER JOIN (SELECT s2.cno c, MAX(s2.degree) max FROM scores s2 GROUP BY s2.cno) s3 ON s1.cno=c and s1.degree=max; [/code]
【SQL练习】经典SQL练习题
weixin_43840217: 记录第33题，[code=sql] SELECT s1.* FROM scores s1 INNER JOIN (SELECT s2.cno cno , AVG(s2.degree) as avg FROM scores s2 GROUP BY s2.cno) s3 ON s1.cno=s3.cno and s1.degree<s3.avg; [/code]
【SQL练习】经典SQL练习题
weixin_43840217: 第28题，只找到了计算机系副教授“李诚”。根据题意，电子工程系的讲师“张旭”也应该被找到吧。[code=sql] SELECT t0.tname, t0.prof FROM teachers t0 WHERE t0.prof<>(SELECT DISTINCT t1.prof FROM teachers t1 INNER JOIN teachers t2 on t1.depart<>t2.depart where t1.prof=t2.prof); [/code]
【SQL练习】经典SQL练习题
Face_spider: 刚看到这个帖子,看评论都在说20题,好吧我也做出来了献丑了 select * from (select *,row_number() over(partition by cno order by degree desc) as rk from scores) t1 where rk != 1 and sno in (select sno from scores group by sno having count(cno) > 1);

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。