Spark调优之Shuffle调优调节map端内存缓冲和reduce端内存占比

最新推荐文章于 2024-08-16 10:02:14 发布

博闻强识plus

最新推荐文章于 2024-08-16 10:02:14 发布

阅读量833

点赞数

分类专栏： spark Hadoop生态

本文链接：https://blog.csdn.net/lilei19921109/article/details/94964021

版权

本文探讨了Spark Shuffle过程中map端的`spark.shuffle.file.buffer`参数（默认32kb）和reduce端的`spark.shuffle.memoryFraction`参数（默认0.2）对性能的影响。当内存缓冲不足时，会导致频繁的溢写操作，增加磁盘IO，降低性能。优化策略包括观察Spark UI中shuffle的读写情况，根据数据量调整参数，并注意整体集群资源的平衡。

摘要由CSDN通过智能技术生成

map端内存缓冲: spark.shuffle.file.buffer (map端内存缓冲，默认32kb)
reduce端内存占比: spark.shuffle.memoryFraction (reduce端内存占比，默认0.2，20%)

理论基础和问题背景：

首先需要声明的是，这两个参数会被认为是调节shuffle的不二选择，但事实是调节这两个参数会对shuffle调优有效果，但并不是决定性的。而往往，shuffle的性能也不是这两个参数单方面就能决定的。
在这里插入图片描述
默认情况下，shuffle的map task输出到磁盘文件时，都会统一先写入自己的内存缓冲区，这个缓冲区的默认大小是32k。当每次内存缓冲区满溢后，才会执行spill（溢写）操作，溢写到磁盘。（如上图）