spark broadcast side join实例

最新推荐文章于 2022-11-21 21:53:33 发布

ZG_24

最新推荐文章于 2022-11-21 21:53:33 发布

阅读量1.8k

点赞数 1

本文链接：https://blog.csdn.net/ZG_24/article/details/74330470

版权

Spark 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

在用spark进行大数据处理时，join是少不了的操作。由于join会导致shuffle，所以当数据量较大时，会导致效率很低，甚至任务失败。

为了有效解决shuffle阶段引起的效率过低问题，我们可以使用broadcast map side join来避免shuffle阶段导致的效率变低问题。

使用map side join时，我们可以把一个较小的dataframe转换成map并“广播”,从而避免shuffle操作。

直接看实例。

def cc_in_flow(cc_info_bc:    //被广播的变量，后边Map要对应
               org.apache.spark.broadcast.Broadcast[scala.collection.Map[String,String]])={

  udf((ip_server: String) =>
    cc_info_bc.value.
      getOrElse(ip_server,""))
}

val ccDF_info=cnc_df.rdd.map(p=>(p.getString(0),p.getString(1))).collectAsMap()
val ccDF_info_bc=sc.broadcast(ccDF_info)

val joinDF_ALL = df_flow_m.where((cc_in_flow(ccDF_info_bc)(col("src_ip")) notEqual("")) or
  (cc_in_flow(ccDF_info_bc)(col("dst_ip")) notEqual("")))
以上代码用来代替cnc_df与df_flow_m的join操作，执行时间可以从1小时降到5分钟！！

ZG_24

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
spark broadcast side join实例

在用spark进行大数据处理时，join是少不了的操作。由于join会导致shuffle，所以当数据量较大时，会导致效率很低，甚至任务失败。为了有效解决shuffle阶段引起的效率过低问题，我们可以使用broadcast map side join来避免shuffle阶段导致的效率变低问题。使用map side join时，我们可以把一个较小的
复制链接

扫一扫

专栏目录