1. 一个阶段的若干task组成一个taskset,一个excutor可以并发执行的多少个task由executor-cores决定。
2. 除非用checkpoint,否则各阶段的rdd的数据都保存到内存里不释放。SPARK SQL需要的内存如果只有一个阶段的shuffle,如group by,各executor的总内存应该是输入内存的4倍。
3. spark.defaultParallellism没有兴趣做,所以不能根据任务大小自动设置reduce端的并行度。
1. 一个阶段的若干task组成一个taskset,一个excutor可以并发执行的多少个task由executor-cores决定。
2. 除非用checkpoint,否则各阶段的rdd的数据都保存到内存里不释放。SPARK SQL需要的内存如果只有一个阶段的shuffle,如group by,各executor的总内存应该是输入内存的4倍。
3. spark.defaultParallellism没有兴趣做,所以不能根据任务大小自动设置reduce端的并行度。