图解spark之map端计算结果缓存

最新推荐文章于 2023-01-04 17:08:50 发布

DrawnBreak

最新推荐文章于 2023-01-04 17:08:50 发布

阅读量447

点赞数

分类专栏：图解spark 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a799581229/article/details/112913907

版权

当spark中做完一次map操作，准备发给下游时，究竟会做什么事呢？我按照一些问题来逐步分析。

首先有个问题：map操作之后，数据是直接缓存到内存或者磁盘，等待下游client来拉取吗？

spark是批处理，假设正好map处理完一批数据，会调用insertAll方法去做缓存，然而缓存并不是那么简单的存储，而是如下：
在这里插入图片描述
可以看到，spark会判断这个map操作之后，是否会接一个聚合的操作，如果有，那么会在缓存并准备发给下游时时，提前做好聚合操作，否则就是简单缓存。

我们先看下简单缓存的分支：
在这里插入图片描述
可以看到在这里地方会做容量判断，如果发现容量不足了，则会试图扩容，看下调用growArray会发生什么：

注意这里有个关键词是预测， spark为了防止出现omm，都是基于预测机制进行内存管理的。看下maybeSpillCollection具体在做什么

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
图解spark之map端计算结果缓存

当spark中做完一次map操作，准备发给下游时，究竟会做什么事呢？我按照一些问题来逐步分析。首先有个问题：map操作之后，数据是直接缓存到内存或者磁盘，等待下游client来拉取吗？spark是批处理，假设正好map处理完一批数据，会调用insertAll方法去做缓存，然而缓存并不是那么简单的存储，而是如下：可以看到，spark会判断这个map操作之后，是否会接一个聚合的操作，如果有，那么会在缓存并准备发给下游时时，提前做好聚合操作，否则就是简单缓存。我们先看下简单缓存的分支：可以看到在这
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。