Spark.shuffle.file.buffer
默认值:
32k
参数说明:
该参数用于设置shuffle write
任务的bufferedOutputStream
的缓冲区大小。 将数据写入磁盘文件之前,将其写入缓冲区,然后在将缓冲区写入磁盘后将其填充。
调整建议:
如果可用内存资源足够,则可以增加此参数的大小(例如64k
),以减少在随机写入过程中磁盘文件溢出的次数,从而可以减少磁盘的数量。 IO时间和提高性能在实践中发现,合理调整参数后,性能将提高1%
到5%
。
参考
Spark performance optimization: shuffle tuning