MapReduce超详细内部核心工作机制

最新推荐文章于 2022-05-10 14:11:09 发布

卷曲的葡萄藤

最新推荐文章于 2022-05-10 14:11:09 发布

阅读量189

点赞数

分类专栏： Hadoop etc.

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39043567/article/details/89950646

版权

Hadoop etc. 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

比如说我们需要MR去对hdfs的...../input/file1,2,3,4,5.....的很多文件进行处理，首先在提交MR程序的时候Job客户端会根据你写的目录去扫描所有的文件。按照block size进行分片的划分。

然后，不同的map task 并行的去处理这些分片。

假设map task 0 去处理split 0 ：

首先，TextInputFomat将split0读进来，然后一行一行的不停的读，同时处理并且将处理的结果同时放入的环形缓冲区，当环形缓冲区中存放到达阈值0.8（可设置）时，另外一个线程对缓冲区的kv进行分区、排序之后写进磁盘里。每一行都如此操作，都产生的是有分区并且排序的kv，这样长生了很多最后还得需要合并（如果有conbiner的话还会进行聚合）。最终一个map task 就形成了一个有分区且排序的多个kv对，写到nodemanager的web程序目录中，共reduce通过http进行copy。

这样下来，很多的map产生了很多的kv，kv，kv。reduce通过http，reduce task 0 就把0号分区的内容全拉去过来，reduce task n就把n号分区内容拉去过来，然后在进行合并，排序。最终聚合输出到HDFS中。

卷曲的葡萄藤

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce超详细内部核心工作机制

比如说我们需要MR去对hdfs的...../input/file1,2,3,4,5.....的很多文件进行处理，首先在提交MR程序的时候Job客户端会根据你写的目录去扫描所有的文件。按照block size进行分片的划分。然后，不同的map task 并行的去处理这些分片。假设map task 0 去处理split 0 ：首先，TextInputFomat将split0读进来，然后...
复制链接

扫一扫

专栏目录

卷曲的葡萄藤 CSDN认证博客专家 CSDN认证企业博客

码龄7年

101: 原创

24万+: 周排名

115万+: 总排名

15万+: 访问

: 等级

2340: 积分

45: 粉丝

68: 获赞

15: 评论

355: 收藏

私信

关注

分类专栏

统计学 1篇
Spark 18篇
Hadoop etc. 12篇
JAVA 7篇
Algorithm 40篇
Linux 1篇
Scala 1篇
Kafka 1篇
Hive 7篇
Flume
HBase 3篇
Sqoop
MySQL
Machine Learning 10篇
Python 1篇
实习
Blog Content Director

最新评论

jupyter notebook中美观显示矩阵
Rokaiii: 你好运行此代码后显示并无变化，不知道是啥问题
Spark中RDD的宽依赖和窄依赖详解
神箭手: 我理解也是你说的这样，感觉网上很多都按后者理解
Spark算子--map和mapPartition的区别，配实例讲解
Recall-MK: M行数据map需要M次IO做操作，mapPartition不需要M次IO，有可能就1次IO，取得数据做操作。因此虽然处理的是每一行，但是处理过程和IO过程不同
Spark算子--map和mapPartition的区别，配实例讲解
yisun123456: 如果只是简单的处理每一行数据呢？mapPartition并没有优势啊，反而代码还多了
Spark中RDD的宽依赖和窄依赖详解
梦想新航点: 你的说法是对的

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。