SparkSql优化

最新推荐文章于 2024-03-18 10:28:13 发布

橘子超甜

最新推荐文章于 2024-03-18 10:28:13 发布

阅读量464

点赞数

分类专栏： spark 文章标签： sparksql优化

本文链接：https://blog.csdn.net/IQiaoKeLi/article/details/86479327

版权

spark 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1、避免用in和not in
解决方案：
- 用exists和not exists代替
- 用join代替
效率：
not in 慢是因为not in 不走索引
2、in 会导致数据倾斜
3、大表join小表
策略：将小表广播（brodcast）
参数：spark.sql.autoBroadcastJoinThreshold 默认值10485760（10M）,当小表或df的大小小于此值，Spark会自动的将该表广播到每个节点上
原理：join是个shuffle类算子，shuffle时，各个节点上会先将相同的key写到本地磁盘，之后再通过网络传输从其他节点的磁盘文件在拉取相同的key，因此shuffle可能会发生大量的磁盘IO和网络传输，性能很低，而broadcast先将小表广播到每个节点，这样join时都是在本地完成，不需要网络传输，所以会提升性能

注意：broadcast join 也称为replicated join 或者 map-side join
4、写MySQL慢
Spark df批量写MySQL很慢，如我900万条数据写需要5-10个小时
解决办法:在url后面加上
&rewriteBatchedStatements=true
&rewriteBatchedStatements=true
加上之后，写数据10分钟左右，快很多。
个人环境经验：MySQL不用加就没问题，MariaDB需要加，也就是不同的MySQL版本不一样

橘子超甜

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
SparkSql优化

1、避免用in和not in解决方案：用exists和not exists代替用join代替效率：not in 慢是因为not in 不走索引2、in 会导致数据倾斜3、大表join小表策略：将小表广播（brodcast）参数：spark.sql.autoBroadcastJoinThreshold 默认值10485760（10M）,当小表或df的大小小于此值，Spark会自动...
复制链接

扫一扫