Spark.reducer.maxSizeInFlight
默认值:48m
参数说明:该参数用于设置shuffle read
任务的buff缓冲区大小,该缓冲区决定一次可以拉取多少数据。
调整建议:如果可用内存资源足够,则可以增加参数的大小(例如96m),从而减少拉取数据的次数,这可以减少网络传输的次数并提高性能。 在实践中发现,合理调整参数后,性能会提高1%至5%。
但是executor内存不足时,设置的太大,就会造成OOM导致宕机
参考
Spark performance optimization: shuffle tuning