MapReduce工作流程

最新推荐文章于 2023-05-15 17:09:32 发布

卍杺歿卍

最新推荐文章于 2023-05-15 17:09:32 发布

阅读量418

点赞数

分类专栏：学习 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_31108731/article/details/108479141

版权

1、MapReduce工作流程

（1）、客户端执行submit()方法之前，会先获取待读取文件的信息；

（2）、将文件切片信息，jar包，job.xml 提交到yarn;

（3）、yarn根据job.xml ，启动切片数量相应的MapTask；

（4）、MapTask 调用inputFormat()方法读取HDFS文件，InputFormat()方法调用RecordRead()方法，默认TextInputFormat将数据以行首字母的偏移量为key，一行数据为value，传到map()方法；

（5）、map()方法做一些业务处理之后，将数据传输到分区方法中，将数据进行分区标注后，发送到环形缓冲区中。

（6）、环形缓冲区默认大小为100MB，达到80%后进行溢写；

（7）、溢写之前排序，按照key的字典序(快排)；

（8）、溢写会产生大量溢写文件，会调用merge()方法，并用归并排序，默认10个溢写文件合并成一个大文件。

（9ÿ

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce工作流程

1、MapReduce工作流程（1）、客户端执行submit()方法之前，会先获取待读取文件的信息；（2）、将文件切片信息，jar包，job.xml 提交到yarn;（3）、yarn根据job.xml ，启动切片数量相应的MapTask；（4）、MapTask 调用inputFormat()方法读取HDFS文件，InputFormat()方法调用RecordRead()方法，默认TextInputFormat()将数据以行首字母的偏移量为key，一行数据为value，传到map...
复制链接

扫一扫

专栏目录

卍杺歿卍 CSDN认证博客专家 CSDN认证企业博客

码龄9年

31: 原创

15万+: 周排名

144万+: 总排名

1万+: 访问

: 等级

376: 积分

5: 粉丝

9: 获赞

2: 评论

58: 收藏

私信

关注

热门文章

分类专栏

mysql 2篇
jmeter 1篇
hadoop 6篇
hive 2篇
git 1篇
linux抓包 1篇
学习 10篇
java 1篇
整理 2篇
遭遇 5篇
消息队列 1篇
个人 2篇
redis 2篇

最新评论

Jmeter压测报告
向可爱低头807: 这个结果分析是tps折线图吗，还是什么
Linux下对java文件调试——Jdk
guoguangwu: 如果用mavne打包怎么设置-g呢

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。