1.聚合源数据:Spark Core和Spark SQL没有任何区别
2.过滤导致倾斜的key:在sql中用where条件
3.提高shuffle并行度:groupByKey(1000),spark.sql.shuffle.partitions(默认是200)
4.双重groupBy:改写SQL,两次groupBy
5.reduce join转换为map join:spark.sql.autoBroadcastJoinThreshold(默认是10485760)此配置限定小表大小,单位为字节,只要表大小小于此取值(此处约为200m),且被执行过cache table的小表,在做join时,都会启用hash join。
可以自己将表做成RDD,自己手动去实现map join;SparkSQL内置的map join,默认如果有一个10M以内的小表,会将该表进行broadcast,然后执行map join;调节这个阈值,比如调节到20M、50M、甚至1G。
6.采样倾斜key并单独进行join:纯Spark Core的一种方式,sample、filter等算子
7.随机key与扩容表:Spark SQL+Spark Core
Spark SQL的数据倾斜解决方案:
本文介绍了如何通过SparkCore和SparkSQL中的各种技术,如使用where条件过滤倾斜key、调整shuffle分区数、利用mapjoin提升join性能以及采样处理倾斜key,来优化大数据处理过程,包括减少数据倾斜和提高系统性能。
摘要由CSDN通过智能技术生成