https://www.sohu.com/a/344074120_315839
1:
Extimated partitionStartIndices=WrappedArray(
截图是80个shuffle read数量,里面数据interval是前一阶段shuffle write的2000个task partition数量的自动合并(spark.sql.adaptive.shuffle.targetPostShuffleInputSize)
看连接文章就明白。
2:
动态分区可以在driver syslog日志输出查fileNum 关键字搜索最终文件数量。
3:
spark.sql.adaptive.shuffle.targetPostShuffleInputSize 只作用resultStage阶段
其他阶段还是spark.sql.shuffle.partitions 起作用。