troubleshooting之控制shuffle reduce端缓冲大小以避免OOM

最新推荐文章于 2021-01-24 22:02:37 发布

mn_kw

最新推荐文章于 2021-01-24 22:02:37 发布

阅读量187

点赞数

分类专栏： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mn_kw/article/details/81114909

版权

spark 专栏收录该内容

80 篇文章 1 订阅

订阅专栏

·shuffle操作

map端的task是不断的输出数据的，数据量可能是很大的。但是，其实reduce端的task，并不是等到map端task将属于自己的那份数据全部写入磁盘文件后，再去拉取的。map端写一点数据，reduce端task就会拉取一小部分数据，立即进行后面的聚合、算子函数的应用。

每次reduce能够拉取多少数据，就由buffer来决定，因为拉取过来的数据，都是先放在buffer中的，然后才用后面的executor分配的堆内存占比（0.2），hashMap，去进行后续的聚合，函数的执行。

reduce端缓冲（buffer），可能会出现什么问题？

可能会出现，默认是48MB，也许大多数时候，reduce端task一边拉取，一边计算，不一定会拉满，可能大多数时候，拉取个10M数据就计算掉了。

大多数时候，也许不会出现什么问题，但是有的时候Map端的数据量特别大，写出的速度特别快，reduce端所有的task，拉取的时候，全部达到自己缓冲的最大极限值，缓冲，48M,全部填满，这个时候，再加上你的reduce端执行的聚合函数的代码，可能会创建大量的对象，也许，一下子，内存就撑不住了，就会OOM.reduce端内存中，就会发生内存溢出的问题

针对上述可能出现的问题，我们该怎么解决？

这个时候，就应该减少reduce端task缓冲的大小。我们宁愿多拉取几次，但是每次同时能够拉取到reduce端每个task的数量，比较少，就不容易发生OOM内存溢出的问题（比如，可以调节成12M）

以上是典型的以性能换执行的原理，reduce端缓冲小了，不容易OOM了，但是，性能一定是有所下降的，你要拉取的次数就多了，走更多的网络传输开销，这种时候，只能采取牺牲性能的方式了

如果说，我们的数据量不是很大，其实可以尝试去增加reduce端缓冲大小的，比如从48M,变成96M，这样的话，reduce task每次拉取的数据量就很大，那么次数就会减少，对网络性能开销的减少都是有帮助的

怎么调节：

spark.reduce.maxSizeInFight, 24

.set("spark.reduce.maxSizeInFight","24")

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。