hadoop里shuffle中的环形缓冲区

最新推荐文章于 2024-08-28 20:05:56 发布

南瓜饼的天空

最新推荐文章于 2024-08-28 20:05:56 发布

阅读量5.9k

点赞数 3

分类专栏： hadoop 文章标签： shuffle 环形缓冲区 hadoop mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42252211/article/details/80939526

版权

本文详细介绍了Hadoop MapReduce过程中shuffle阶段的环形缓冲区工作原理。MapOutputBuffer作为环形缓冲区的主要实现，包含三级索引结构，并采用单生产者消费者模型进行数据管理。当内存使用率达到io.sort.spill.percent配置值时，数据开始溢出到磁盘。在Hadoop 0.21版本中，进一步优化了缓冲区设计，减少了磁盘溢写次数。

摘要由CSDN通过智能技术生成

最近在看<<Hadoop技术内幕>>里面对shuffle中"奇迹发生的地方"有比较细致的叙述

在这整理一下：

在mapper端业务逻辑走完后，调用MapOutputCollector.collect()输出结果，其中MapOutputCollector这个接口有两个实现类MapOutputBuffer和DirectMapOutputCollector，后者是在没有ReduceTask时调用的直接写入HDFS，而前者就是环形缓冲区所在地。

MapOutputBuffer采用二级索引结构，涉及三个环形内存缓冲区kvoffsets(键值对索引的偏移量)、kvindices(分区信息、键值对索引)、kvbuffer(键值对具体的值)，总大小在配置文件中io.sort.mb属性设置(默认为100mb)。

缓冲区采用典型单生产者消费者模型。MapOutputBuffer的collect方法和MapOutp

最低0.47元/天解锁文章

南瓜饼的天空

关注

3
点赞
踩
14

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

南瓜饼的天空 CSDN认证博客专家 CSDN认证企业博客

码龄6年

2: 原创

135万+: 周排名

139万+: 总排名

6843: 访问

: 等级

103: 积分

4: 粉丝

6: 获赞

5: 评论

12: 收藏

私信

关注

热门文章

分类专栏

树状结构
hadoop 1篇

最新评论

hadoop里shuffle中的环形缓冲区
Amos_Mu: 你应该看看数据结构指针
hadoop里shuffle中的环形缓冲区
迷路剑客回复不仅仅是热爱: 100%的话正在运行的任务输出到哪？就必须阻塞任务等待spill完成了
hadoop里shuffle中的环形缓冲区
_maybewecan 回复不仅仅是热爱: 溢出不是一瞬间完成的，需要IO的过程。。100%才启动溢出，可是map task还在产生数据，这些数据放到什么地方呢？
hadoop里shuffle中的环形缓冲区
不仅仅是热爱: 为什么是80%时溢出，而不是100%？
LeetCode 验证二叉搜索树
问天海东青: 666

最新文章

LeetCode 验证二叉搜索树

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。