spark 笛卡尔积优化

最新推荐文章于 2024-10-16 09:46:47 发布

illbehere

最新推荐文章于 2024-10-16 09:46:47 发布

阅读量4.3k

点赞数 4

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/illbehere/article/details/89090355

因业务需求，需对两份数据进行关联，然后进行计算，然后想到笛卡尔积。在最开始用spark对他进行处理的时候，他总是卡死在一个地方跑不出数据。需对其进行优化。

1. 任务代码

data1 = hc.sql(" select a.*,b.*  from tableA a ,tableB b").rdd.map(list)

2. 优化方式1
对数据进行分区rdd.repartition(50)，看后台任务信息，只有两个任务在运行，所以这个设置并不起作用。那么应该是要从数据源头进行设置。即对hive进行一些优化。

sqlContext.setConf('mapred.reduce.tasks',100)
sqlContext.setConf('mapred.max.split.size',1000000)
sqlContext.setConf('mapred.min.split.size',1000000)
sqlContext.setConf('mapred.map.tasks',100)

这是因为其中一个表较小，进行数据分块的时候只够分一块数据。所以相当于在单线程运行。那么就设置数据分块的大小。

2. 优化方式2
经上面优化后，运行速度有了很大的提升。再进一步优化需把小表进行广播，这样会减少spark的shuffle操作。

sqlContext.setConf('spark.sql.autoBroadcastJoinThreshold',100)

spark是默认10m会进行广播，我这里设置为100m。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

illbehere

关注关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Spark，大规模jaccard距离join，笛卡尔积的复杂度，的速度优化逼近算法

_Hope_

09-08

414

有jaccard距离udf函数： def jaccardDistance = udf { (string1: String, string2: String) => var result = false val set1: Set[Char] = string1.toSet val set2: Set[Char] = string2.toSet val intersectSize = set1.intersect(set2).size.toFloat

Spark，大规模jaccard距离join，笛卡尔积的复杂度，的近似速度优化算法

_Hope_

09-07

370

1 条评论您还未登录，请先登录后发表或查看评论

spark sql 中的 笛卡尔积（cross join）优化方法--mapjoin

samur2的博客

01-11

3123

在编写sql代码时，需要尽量少使用 笛卡尔积，但是有些特殊场景下很难找到代替方案。这里分享了在进行spark sql 编写任务作业时遇到笛卡尔积导致执行慢的问题，并记录了解决方案

spark对笛卡尔乘积的优化

果然好吃的专栏

03-05

4235

import org.apache.spark.rdd._ def combs(rdd:RDD[String]):RDD[(String,String)] = { val count = rdd.count if (rdd.count 2) { sc.makeRDD[(String,String)](Seq.empty) } else if (rdd

大表笛卡尔积优化思路

weixin_37944880的博客

06-16

4678

最近在工作过程中碰到了大表间的笛卡尔积，这个就比较恶心了，开始完全跑不出来，后来一步步优化，最终起码勉强能有结果，虽然有很多数据特殊性且思路简单，但是也还是记录下。案例假设有如下表数据：需要 ...

记录一次spark2.x数据倾斜(隐藏的笛卡尔积)排查处理过程

weixin_45450027的博客

04-17

1951

目录一、问题描述二、尝试调整参数三、查看spark具体sql流程图一、问题描述有一个dwd层中间表的入表任务，有几天的日期永远无法执行成功，平时的任务时间大概在2分钟。之前也遇到过一次这样的情况，是通过排查脏数据得到了解决（长字符串id中有不规则脏字符），这次实在没有头绪。二、尝试调整参数因为查看yarn任务的页面，发现总是报错在拒绝连接，看到有个别任务总是执行半天卡住，并且shuffle的records数量也明显高于其他exceutor，并且不仅spill到内存，甚至到了磁

数仓治理-计算资源治理

爱吃辣条的博客

01-24

1517

数仓治理-计算资源治理

spark怎么优化笛卡尔积

03-09

可以通过以下几种方式来优化 Spark 的笛卡尔积操作： 1. 使用 broadcast 变量：如果一个 RDD 的大小比较小，可以将其转换为 broadcast 变量，然后在另一个 RDD 上使用 map 操作，这样可以避免笛卡尔积操作。 2. ...

了解下SparkSQL中的笛卡尔积

淡定一生2333的博客

09-17

1878

了解下SparkSQL中的笛卡尔积

Spark/pyspark RDD 笛卡尔积

木东的博客

05-03

3347

Spark RDD 笛卡尔积 pyspark上也有 [html] view plain copy val left = sc.parallelize(List(1,2,3)) val right = sc.parallelize(List(3,4,5,6)) val out = left union right //返回所有元素新的RDD //{1,2,3,

Spark编程优化与建议

止鱼

07-28

460

用 aggregateByKey 替代 reduceByKey 和 groupByKey repartition适用于RDD[V], partitionBy适用于RDD[K,V] 如果有RDD复用，尤其是该RDD需要花费比较长的时间，建议对该RDD做catch，如果该RDD每个Partition需要消耗很多内存，建议开启Kryo序列化机制(可节省2到5倍空间)，如果还是有比较大的内存开销，建议...

spark优化总结

数据技术控

08-27

636

1、注意join的使用，如果有较小的表可考虑使用广播的方式实现mapjoin，类似MR/HIVE。广播变量是一个executor一份副本 2、注意数据倾斜的问题，这个问题在分布式shuffle操作时都有可能出现，常见几个场景： join操作空值量很多时使用随机值 cout(distinct)操作，拆分成group by 再count 对数据采样抽取出倾斜的key，单独处理，最后做union...

Spark算子——cartesian（求笛卡尔积）详解+例题

qq_40343117的博客

09-22

3592

cartesian：将（arr2）里的数值分别对应到arr1的第一个值上，然后分别对应第二个，第三个，组成一个个的新集合，也就是我们常说的笛卡尔积 object CartesianTest { def main(args: Array[String]): Unit = { val conf=new SparkConf().setAppName("cratesian").setMast...

13 笛卡尔积(CARTESIAN)--优化主题系列

leo0805的博客

10-09

2279

当一个SQL中两个表无关联条件，或者关联条件可以被忽略的时候就会发生笛卡尔积。遇到这种情况要仔细分析SQL是否符合需求，是不是SQL写错了。在有些情况下，如果CBO预估两个表返回的行数很少(通常小于10)，那么也可能发生笛卡尔积。遇到这样的情况： 1.如果SQL跑得很快，并且两个表返回的真实行数确实很少，那么走笛卡尔积可能是最优化的，这个时候我们不用管。只要是SQL跑得快我们都不用管。 2.统计信息不准确导致CBO错误估算，从而引发笛卡尔积连接。这时要更新统计信息。 3.CBO计算返回行数错误，导致笛

Spark 数据倾斜优化及热点数据处理

Jweilai

04-19

799

最近在复习Spark 内容，Spark 数据倾斜方面的优化一直是实际生产环境中比较重要的一点，所以学习编写以下内容

记录Spark 笛卡尔积问题

qq_41676216的博客

03-12

1103

因为要上线一个需求，有改到spark sql。在改之前我一般习惯把生产原逻辑跑一边理解下（需求赶，都是边读业务边写）但奇怪的是，在生产上已经跑了24个账期的代码，拉到自己环境跑却报了两者的版本都是2.X Detected cartesian product for INNER join between logical plans的错误。这个错误很明显，笛卡尔积。国内所有的解决方案都是抄袭的设置配置spark.conf.set("spark.sql.crossJoin.enable..

如何利用spark快速计算笛卡尔积