num-executors 该参数一定被设置, 为当前Application生产指定个数的Executors 实际生产环境分配80个左右的Executors
executor-memory 与JVM OOM紧密相关,很多时候甚至决定了spark运行的性能 实际生产环境下建议8GB左右 若运行在yarn上,内存占用量不超过yarn的内存资源的50%
excutor-cores 决定了在Executor中能够并行执行的Task的个数 实际生产环境建议4个左右 不超过yarn队列中Cores总数的50%
driver-memory 作为驱动,默认是1GB 生产环境一般设置4GB
spark.default.parallelism 建议至少设置100个,最好是700个左右
spark.storage.memoryFraction 默认占用60%,如果计算比较依赖于历史数据,则可以适当调高该参数,如果计算严重依赖于shuffle,则需要降低该比例
spark.shuffle.memoryFraction 默认占用20% 如果计算严重依赖于shuffle,则需要提高该比例
supervise 配置这个参数,当Driver运行在Cluster集群,如果出问题了,可自动重新启动
附上