学习笔记_MapReduce与Shuffle

最新推荐文章于 2023-08-13 15:04:22 发布

Moises_RC

最新推荐文章于 2023-08-13 15:04:22 发布

阅读量144

点赞数 2

分类专栏：大数据学习文章标签： Map Reduce Shuffle 运行机制

本文链接：https://blog.csdn.net/qq_42148208/article/details/82466307

版权

5 篇文章 0 订阅

订阅专栏

MapReduce是Hadoop中的分布式离线并行计算框架，主要负责批量处理数据，这里将对MapReduce的运行过程进行解释

MapReduce在运行任务时会产生Map Task和Reduce Task两个进程，可分为Map、Shuffle和Reduce三个阶段

这里写图片描述

每个map接收传来的一个split，格式为< key，value >，其中key为LongWritable格式，是当前数据在文件中的偏移量，value为Text格式，是当前split中的数据
map根据编写的代码对传入值进行处理后返回一个< key,value >

将map返回的结果按key进行分区(默认是对key进行hash后再对reduce数量取模，达到平衡各reduce工作量的作用)，并不断写入到环形缓冲区中
环形缓冲区默认是100M，当写入的数据达到阈值80%(即80M)的时候开始向磁盘溢写数据，此时溢写数据的进程与写入环形缓冲区的进程并不是同一个，因此在溢写过程中，依旧可以写入到环形缓冲区空余的20M空间中，溢写过程为先对数据按key进行sort排序，如果有定义combine(与reduce功能一样，进行数据合并)则会在合并后生成溢写文件，combine需要慎用，只建议在reduce输入与输出类型相同，进行求和或最大值计算并且不影响最终结果时使用
由于map最终的文件只能有一个，所以会对所有溢写文件根据分区进行merge，形成一个文件
为每个reduce从各个map生成的文件中不断拉取对应分区的数据进行merge形成新的文件

关注