Spark实践之join优化

最新推荐文章于 2024-09-23 17:03:58 发布

东南枝DP

最新推荐文章于 2024-09-23 17:03:58 发布

阅读量6.9k

点赞数 3

分类专栏： spark 文章标签： spark scala join 大数据

本文链接：https://blog.csdn.net/asdfghjkl1993/article/details/46800677

版权

本文探讨了Spark中join操作的优化，重点介绍了map-side join和reduce-side join的区别，特别是在处理大表与小表join时，如何利用map-side join提升效率，以应对大数据处理场景的挑战。

摘要由CSDN通过智能技术生成

join优化应该是spark相关岗位面试必考的内容。 join其实常见的就分为两类： map-side join 和 reduce-side join。当大表和小表join时，用map-side join能显著提高效率。。

/**
 * Created by shenjiyi on 2015/7/8.
 */

package com.test

import com.test.utils.MySparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf

object TestJoin {
  def main (args: Array[String]): Unit ={
    val conf = new SparkConf()
      .setMaster(args(0))
      .setAppName("TestJoin")
      .set("spark.speculation", "true")
      .set("spark.default.parallelism", "200")
    val sc = new MySparkContext(conf)

    val input1 = sc.rawTextFile(args(1), "GB18030")
    val input2 = sc.rawTextFile(args(2), "GB18030")
    val output1 = args(3)
    val output2 = arg