MapReduce的运行机制和原理

最新推荐文章于 2021-08-30 14:19:27 发布

weixin_43363407

最新推荐文章于 2021-08-30 14:19:27 发布

阅读量1.2k

点赞数 1

文章标签： map task rudece task mapreduce shuffle过程

本文链接：https://blog.csdn.net/weixin_43363407/article/details/88690770

版权

本文详细介绍了MapReduce的运行机制，包括读取文件、自定义map阶段、分区排序规约、reduce task阶段。重点阐述了MapReduce的核心——shuffle过程，涵盖Collect、Spill、Merge、Copy、Merge和Sort六个阶段，强调了缓冲区大小对程序执行效率的影响。

摘要由CSDN通过智能技术生成

一简述MapReduce的运行机制
答：MapReduce主要有以下的八个运行步骤

在这里插入图片描述整个流程如图所示。

1 第一步，读取文件。这个时候需要用到Inputformat（默认是TextInputformat）会通过getSplits方法对输入的文件进行逻辑规划并切分得到splits,有多少个split就启动多少个MapTask.split与tasks是默认的一一对应的。
第二步，将文件切分为splits之后，由RecordReader（默认为LineRecordReader）进行读取，以\n作为分隔符，读取一行数据，返回key1,value1 .key1表示每行首字符的偏移量，value1表示这一行的文本内容。
2 第二步，自定义map阶段。首先，读取到的key1,value1进入到自定义的Mapper类中，执行用户重写的map函数。RecordReader读写一行，这里调用一次。
3 maptask阶段这个阶段在内存中完成主要有分区排序规约。
将map逻辑完成后的每条结果通过context.write进行collect数据收集。在collect中会进行分区处理，默认使用HashPartitioner.MapReduce
提供Partitioner接口，它的作用是根据key2 value2以及Reduce的数量来决定当前的这对键值对交给哪个ReduceTask处理。默认对key hash后再对reduce task数量取模。默认的取模方式只是为了平均reduce的处理能力。如果用户对partitioner有需求，可以自定义的设置到job上。
然后是排序，接

最低0.47元/天解锁文章

weixin_43363407

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce的运行机制和原理

一简述MapReduce的运行机制答：MapReduce主要有以下的八个运行步骤整个流程如图所示。1 第一步，读取文件。这个时候需要用到Inputformat（默认是TextInputformat）会通过getSplits方法对输入的文件进行逻辑规划并切分得到splits,有多少个split就启动多少个MapTask.split与tasks是默认的一一对应的。第二步，将文件切分为s...
复制链接

扫一扫