Scala的join算子

 1:使用Scala的算子join进行练习

val spark = SparkSession.builder().master("local[2]").appName("simple").getOrCreate()
    val visit = spark.sparkContext.parallelize(List(("index.html","1.2.3.4"),("about.html","3,4,5,6"),("index.html","1.3.3.1"),("hello.html","1,2,3,4")),2);
    val page = spark.sparkContext.parallelize(List(("index.html","home"),("about.html","about"),("hi.html","2.3.3.3")),2);

    visit.join(page).foreach(println)

    page.join(visit).foreach(println)



打印结果:

第一个join

(index.html,(1.2.3.4,home))
(about.html,(3,4,5,6,about))
(index.html,(1.3.3.1,home))
第二个join
(index.html,(home,1.2.3.4))
(index.html,(home,1.3.3.1))
(about.html,(about,3,4,5,6))

可见,join算子使用的是内连接的join,

以某一个表为基础,KEY相同的打印出来,不相同的不打印

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Spark Scala中的join算子是一种数据转换函数,用于将两个数据集合并成一个新的数据集。在Spark中,join操作可以通过不同的方式进行,包括内连接、左连接、右连接和外连接。 内连接(inner join)是指将两个数据集合并为一个新的数据集,其中只保留两个数据集中都包含的元素。这种连接方式通常用于需要匹配两个数据集中的关键字或条件时。 左连接(left join)是指将两个数据集合并为一个新的数据集,其中保留左侧数据集中所有的元素,同时将右侧数据集中与左侧数据集匹配的元素合并到新数据集中。如果右侧数据集中没有与左侧数据集匹配的元素,则在新数据集中使用null填充。 右连接(right join)是指将两个数据集合并为一个新的数据集,其中保留右侧数据集中所有的元素,同时将左侧数据集中与右侧数据集匹配的元素合并到新数据集中。如果左侧数据集中没有与右侧数据集匹配的元素,则在新数据集中使用null填充。 外连接(outer join)是指将两个数据集合并为一个新的数据集,其中保留左侧和右侧数据集中所有的元素,同时将左侧和右侧数据集中匹配的元素合并到新数据集中。如果左侧或右侧数据集中没有与另一个数据集匹配的元素,则在新数据集中使用null填充。 在Spark Scala中,join算子通常通过调用DataFrame或Dataset API中的join函数来实现。具体实现方式取决于使用的连接方式和数据集类型。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值