spark
文章平均质量分 53
qq_42223694
这个作者很懒,什么都没留下…
展开
-
spark sql性能如何提升
背景数仓写多最多的就是sql,作为一个资深的sql工程师,sql性能是很重要的。以我个人经验来说有几个影响sql性能的问题动态谓词下推动态join策略选择动态并行度解释一下啥意思呢?hive或者是其他的,都是利用静态的tableA和tableB的统计数据(数据量),生成执行计划,然后直接执行这将出现一些问题。比如:1.并行度可能出现问题.按照执行计划给定的并行度(比较粗犷,比如200),这会导致两个极端,我的sql经过过滤之后,一共就1条数据,然后还傻乎乎的去启动200个任务,另原创 2021-10-10 15:16:49 · 248 阅读 · 0 评论 -
sparksql中shuffled hash join策略
背景sparksql中又很多join策略,其中有一个是shuffled hash join.这个用的比较多,但是又说不明白其原理,我各种百度,各种谷歌,最后在stackoverflow找到了一份资料,链接如下:https://www.linkedin.com/pulse/spark-sql-3-common-joins-explained-ram-ghadiyaram如果不能访问,请自行梯子原理先上总图首先将tableA和tableB进行按照key,进行hash取摸,也就是重新shuffle一原创 2021-10-10 14:52:39 · 601 阅读 · 0 评论