Spark SQL的数据倾斜解决方案：

qq_24754737

于 2024-01-31 15:46:44 发布

阅读量284

点赞数 3

文章标签： spark sql 大数据

本文链接：https://blog.csdn.net/qq_24754737/article/details/135955247

版权

本文介绍了如何通过SparkCore和SparkSQL中的各种技术，如使用where条件过滤倾斜key、调整shuffle分区数、利用mapjoin提升join性能以及采样处理倾斜key，来优化大数据处理过程，包括减少数据倾斜和提高系统性能。

摘要由CSDN通过智能技术生成

1.聚合源数据：Spark Core和Spark SQL没有任何区别
2.过滤导致倾斜的key：在sql中用where条件
3.提高shuffle并行度：groupByKey(1000)，spark.sql.shuffle.partitions（默认是200）
4.双重groupBy：改写SQL，两次groupBy
5.reduce join转换为map join：spark.sql.autoBroadcastJoinThreshold（默认是10485760）此配置限定小表大小，单位为字节，只要表大小小于此取值（此处约为200m），且被执行过cache table的小表，在做join时，都会启用hash join。
可以自己将表做成RDD，自己手动去实现map join；SparkSQL内置的map join，默认如果有一个10M以内的小表，会将该表进行broadcast，然后执行map join；调节这个阈值，比如调节到20M、50M、甚至1G。
6.采样倾斜key并单独进行join：纯Spark Core的一种方式，sample、filter等算子
7.随机key与扩容表：Spark SQL+Spark Core