shuffle过程个人总结

最新推荐文章于 2023-03-14 20:37:09 发布

ZJ_2459

最新推荐文章于 2023-03-14 20:37:09 发布

阅读量331

点赞数

分类专栏： hadoop 文章标签： shuffle hadoop spark

本文链接：https://blog.csdn.net/ZJ_2459/article/details/88072122

版权

hadoop 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

shuffle过程我只简单总结一下流程，这里先不分析相关的东西，分别看MR的shuffle和spark的shuffle

一、MR的shuffle
map方法业务逻辑处理结果放入OutputCollector输出收集器，放入环形缓冲区（默认100M，其中数据区占80%，20%为保留区），当数据超过80%，指针会指向保留区继续让map写数据，数据区的数据会写入溢出器，并由溢出器进行分区（利用hash）排序（利用快排），maptask会将溢出的无数小文件合并为一个大文件，并且进行排序使其在同一个分区内有序（归并排序），并交给reducetask。
当有一个maptask完成后，ReduceTask就会被主管启动，会将mapTask生成的大文件的同一个分区拷贝到一起，进行聚合排序，ReduceTask会读取第一个key，传给reduce方法，同时传入一个value迭代器。shuffle过程完成

二、spark shuffle
spark shuffle主要分为两个阶段：write阶段和 read阶段
shuffle write主要是将数据 partition 并进行持久化，首先将 shuffle write 的处理逻辑加入到 ShuffleMapStage 的最后，该 stage 的 final RDD 每输出一个 record 就将其 partition 并持久化。先利用 pipeline 计算得到 finalRDD 中对应 partition 的 records。每得到一个 record 就将其送到对应的 bucket 里，每个 bucket 里面的数据会不断被写到本地磁盘上，形成一个 ShuffleBlockFile，或者简称 FileSegment。之后的 reducer 会去 fetch 属于自己的 FileSegment，进入 shuffle read 阶段。
shuffle read就是reducer从mapper中拉取数据的过程，Reducer中有个softbuffer缓冲区（比较小），mapper拉取数据时，先放在缓冲区里，当缓冲区满了，再把数据以键值对的形式链到RDD链上。

ZJ_2459

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
shuffle过程个人总结

shuffle过程我只简单总结一下流程，这里先不分析相关的东西，分别看MR的shuffle和spark的shuffle一、MR的shufflemap方法业务逻辑处理结果放入OutputCollector输出收集器，放入环形缓冲区（默认100M，其中数据区占80%，20%为保留区），当数据超过80%，指针会指向保留区继续让map写数据，数据区的数据会写入溢出器，并由溢出器进行分区（利用hash...
复制链接

扫一扫