1:spark.default.parallelism 设置sparkstreaming程序的并行度:
2:spark.sql.shuffle.partitions 设置spark-sql程序的并行度
3:spark.scheduler.listenerbus.eventqueue.size=100000 批次太多,sparkui的batch会显示许多未完成的批次,实际上该批次已经完成
4:spark.streaming.kafka.partitionMultiFactor=3 设置kafka分区的多因子
5.spark.streaming.kafka.maxRatePerPartition 和kafka集成时候,限制每秒每个分区消费的数据量
6.spark.locality.wait 数据本地性等待时间