spark sql 中的笛卡尔积（cross join）优化方法--mapjoin

最新推荐文章于 2025-03-19 22:15:00 发布

大壮001

最新推荐文章于 2025-03-19 22:15:00 发布

阅读量3k

点赞数

分类专栏：大数据文章标签： spark sql 大数据 hive 数据库

本文链接：https://blog.csdn.net/samur2/article/details/128615695

版权

大数据专栏收录该内容

16 篇文章

订阅专栏

背景

这里分享了在进行spark sql 编写任务作业时遇到的问题，并记录了解决方案。

在编写sql代码时，需要尽量少使用笛卡尔积，但是有些特殊场景下很难找到代替方案，比如下面的案例：

select 
  aa.*, sum(bb.work_date) as '工作日'
from aa
cross join work_date_dim bb on bb.begin_tm >= aa.任务开始时间 and bb.end_tm < aa.任务结束时间
group by ...

这里是求任务开始时间和任务结束时间之间的工作日总数。使用笛卡尔积 + 限制条件是比较好的处理方式。
但是，执行结果就是 特别慢！aa 表不到 10w， bb表只有几千条，执行了30分钟还是不行！

优化方案

这里使用 mapjoin 来进行优化。
优化后的sql如下：

select /*+ mapjoin(bb)*/
  aa.*, sum(bb.work_date) as '工作日'
from aa
cross join work_date_dim bb on bb.begin_tm >= aa.任务开始时间 and bb.end_tm < aa.任务结束时间
group by ...

sql修改后，不到 1分钟就执行完了，快得飞起！但是，注意bb表不能太大。
如果bb表是大表的话，可以考虑借用临时表来避免笛卡尔积，这个跟业务比较紧密关联。

mapjoin简单来说，就是把小表读取到分布式缓存中（DistributeCache），然后拷贝到计算节点上。由于在内存中操作，自然比较快了。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

大壮001

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark-SQL 之 join 类型

zhixingheyi_tian的博客

05-31

804

Shuffle Hash Join 启用 Shuffle Hash Join 必须满足以下几个条件：仅支持等值 Join，不要求参与 Join 的 Keys 可排序； spark.sql.join.preferSortMergeJoin 参数必须设置为 false，参数是从 Spark 2.0.0 版本引入的，默认值为 true，也就是默认情况下选择 Sort Merge Join；小表的大小（plan.stats.sizeInBytes）必须小于 spark.sql.autoBroadcastJoi

SparkSql Join Types详解

SunnyRivers

01-31

377

我们都知道join是根据某些条件把两行数据关联起来，而且也熟悉常用的一些join type，如inner、left、right等等，但是有些人可能对semi、anti或者一些语法的缩写和全写搞的不是很清楚，这篇博客就用简单明了的案例把这些都讲明白。

1 条评论您还未登录，请先登录后发表或查看评论

【spark sql mapjoin BROADCAST】

Lu_Xiao_Yue的博客

04-06

1985

在hive中开启mapjoin(大表join小表) 直接在sql查询时添加参数/+ mapjoin(smalltable)/ 具体如下 -- hive sql select /*+ mapjoin(b)*/ a.* from big_table a join small_table b on a.id=b.id 在spark的sql中开启mapjoin / BROADCAST -- spark sql select /*+ BROADCAST(b)*/ a.* from big_table a

SparkSQL 函数 crossjoin()

m0_69097184的博客

12-19

1081

crossJoin是 Spark SQL 中用于连接两个 DataFrame 的操作。这个操作会生成一个新的 DataFrame，其中包含两个原始 DataFrame 中所有可能的行组合，即它是一种笛卡尔积。

Spark--一文了解SparkSql的Join策略

最新发布

qq_46893497的博客

03-19

871

Join连接是大数据处理的重要手段，它基于表之间的共同字段将来自两个或多个表的行结合起来。但是我们真的了解join吗？join都有哪些，是怎么实现的?

spark 笛卡尔积优化

prometheus的博客

04-08

4384

因业务需求，需对两份数据进行关联，然后进行计算，然后想到笛卡尔积。在最开始用spark对他进行处理的时候，他总是卡死在一个地方跑不出数据。需对其进行优化。 1. 任务代码 data1 = hc.sql(" select a.*,b.* from tableA a ,tableB b").rdd.map(list) 2. 优化方式1 对数据进行分区rdd.repartition(50)，...

spark crossjoin方法优化

骑着蜗牛向前跑的博客

01-05

1357

org.apache.spark.SparkException Job aborted due to stage failure: Total size of serialized results of 147936 tasks (1024.0 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)

了解下SparkSQL中的笛卡尔积

淡定一生2333的博客

09-17

1850

了解下SparkSQL中的笛卡尔积

spark对笛卡尔乘积的优化

果然好吃的专栏

03-05

4215

import org.apache.spark.rdd._ def combs(rdd:RDD[String]):RDD[(String,String)] = { val count = rdd.count if (rdd.count 2) { sc.makeRDD[(String,String)](Seq.empty) } else if (rdd

Spark2.x之SQL/join关联报CROSS JOIN错误

踏雪无痕

06-18

2231

一.算子join 在Spark中，两个dataframe关联分为使用算子join关联和使用视图SQL关联两种。在使用join算子关联时，一般的关联语句是这样的： words_df.join(words_df, words_df("word") === words_df("word")).show() words_df.join(words_df, words_df("word") === words_df("word"), joinType = "left").show() 效果：当没有明确的关联字段

Spark中的JOIN机制

Java/Python大数据随笔

07-16

1703

Apache Spark共提供了五种JOIN机制，其中常用的有三种：Shuffle Hash Join、Broadcast Hash Join及Sort Merge Join，它们都基于Hash Join，只不过需要在Hash Join前后进行Shuffle、Broadcast或Sort实际上，Hash Join算法来自于传统数据库，而Shuffle、Broadcast和Sort是大数据（数据仓库）在分布式场景下两者结合的产物。因此，我们也说大数据（数据仓库）是由传统数据库发展而来的。

SparkSQL–有必要坐下来聊聊Join

02-25

本文来自于范欣欣，本文带大家真正走进Join的世界，了解常用的几种Join算法以及各自的适用场景。Join是数据库查询永远绕不开的话题，传统查询SQL技术总体可以分为简单操作（过滤操作-where、排序操作-limit等），聚合操作-groupBy等以及Join操作等。其中Join操作是其中最复杂、代价最大的操作类型，也是OLAP场景中使用相对较多的操作。因此很有必要聊聊这个话题。另外，从业务层面来讲，用户在数仓建设的时候也会涉及Join使用的问题。通常情况下，数据仓库中的表一般会分为”低层次表”和“高层次表”。所谓”低层次表”，就是数据源导入数仓之后直接生成的表，单表列值较少，一般可以明显归

spark sql mapjoin BROADCAST

Neon Light 的博客

09-17

2821

spark 跑sql的时候一个小表想用mapjoin，在hive中开启mapjoin 直接在sql查询时添加参数/*+ mapjoin(smalltable)*/，可参考LanguageManual Joins 具体如下 -- hive sql select /*+ mapjoin(b)*/ a.* from big_table a join small_table b on a.id=b.id 但是在spark中这么跑没能开启mapjoin，任务计划图如下图1 在spark的sql中开启mapj

Spark，大规模jaccard距离join，笛卡尔积的复杂度，的速度优化逼近算法

Hope^_^

09-08

401

有jaccard距离udf函数： def jaccardDistance = udf { (string1: String, string2: String) => var result = false val set1: Set[Char] = string1.toSet val set2: Set[Char] = string2.toSet val intersectSize = set1.intersect(set2).size.toFloat

Spark SQL中出现 CROSS JOIN 问题解决

asdfgh0077的博客

02-17

500

Spark SQL中出现 CROSS JOIN 问题解决

Spark SQL中实现Hive MapJoin

刘光华的专栏

09-23

5230

转载地址： http://lxw1234.com/archives/2015/06/296.htm 在Hive中，如果一个很大的表和一个小表做join，Hive可以自动或者手动使用MapJoin，将小表的数据加载到DistributeCache中，从而在使用Map Task扫描大表的同时，完成join，这对join的性能提升非常多。在SparkSQL中，目前还不支持

SparkSql MAPJOIN优化之小表left join大表

lquarius的博客

09-03

8989

首先我们要了解MAPJOIN优化原理，这里简要说明下 Spark Broadcast hash join(Hive map join同理) 1，把小表广播到所有大表分布的节点上，在每个节点上分别进行单机hash join 2，left join时只能广播右表执行基本条件：小表必须小于参数spark.sql.autoBroadcastJoinThreshold, 默认为10M sql场景小表需要leftjoin大表小表150M左右大表1T左右原始sql(广播...

sparksql优化之浅谈mapjoin和broacast广播变量

weixin_41099552的博客

10-10

2464

在等待期间，突然就有个疑问，这个broadcast不是广播变量吗，为什么这里会出现这个问题。2.所以这里的内存应该指的就是executor了，每个executor保存一份小表副本，再由executor下的task进行拉取，这里基本就是广播变量的原理了。2022年10月10日，在大数据集群跑任务，爆出超时错误，在同事建议下，增大broadcast join时长重跑程序。中表数据做匹配，由于在map端是进行了join操作，省去了reduce运行的时间，算是hive中的一种优化。

presto sql cross join

09-03

Presto SQL中的CROSS JOIN是一种用于获取两个表的笛卡尔积的操作。它会将左表的每一行与右表的每一行进行组合，生成一个新的表。CROSS JOIN操作没有任何条件约束，它会返回两个表中所有可能的组合。在Presto SQL中，可以使用CROSS JOIN关键字来执行CROSS JOIN操作。例如，如果我们有两个表A和B，可以使用以下语法执行CROSS JOIN操作： SELECT * FROM A CROSS JOIN B; 这将返回一个新的表，其中包含A表和B表中所有可能的组合。请注意，CROSS JOIN操作可能会导致结果集非常庞大，因此使用时需要谨慎。引用中的列转行示例中，通过使用UNION ALL将htable表的不同列转换为多行，每一行包含一个uid、一个key和一个value。引用中的行转列示例中，通过使用map_agg函数将htable表的多行聚合为一行，每一行包含一个uid和一个包含c1、c2和c3列的键值对映射。引用中的行转列示例中，通过使用CASE WHEN语句，将htable表的多行转换为一行，每一行包含一个uid和一个包含c1、c2和c3列的键值对映射，其中使用max函数将每个列的值聚合到一起。总结起来，Presto SQL中的CROSS JOIN操作可以用于获取两个表的笛卡尔积。同时，可以使用列转行和行转列的方法来处理表中的数据，根据具体的需求选择合适的方法进行数据转换。123 #### 引用[.reference_title] - *1* *2* *3* [Hive/Spark/Presto/标准SQL实现行转列和列转行](https://blog.csdn.net/soaring0121/article/details/99870447)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

spark sql 中的 笛卡尔积（cross join）优化方法--mapjoin

背景

优化方案

spark sql 中的笛卡尔积（cross join）优化方法--mapjoin