RDD编程中的RDD连接(表连接)问题

在Spark的RDD编程中,由于RDD的惰性特性,直接在map操作中内嵌另一个RDD操作会导致错误。本文介绍了两种解决表连接的方法:1) 使用broadcast进行map端的表连接,适合一大一小两个表的情况;2) 对于两个都不大的表,可以使用reduce端的join方法。需要注意,广播机制仅能广播实体,而非RDD,且join方法在大表连接时数据shuffle成本较高。
摘要由CSDN通过智能技术生成

在spark的rdd编程的时候,我们经常想做一些表连接的操作。
对rdd理解不深的时候我们可能会写出如下代码:

   val temp1 = sc.textFile("C://Users/802/Desktop/1.txt").map(_.split(",")).map(k =>
      (k(0).toInt,k(1).toInt))
   val temp2 = sc.textFile("C://Users/802/Desktop/2.txt").map(_.split(",")).map(k =>
      (k(0).toInt,k(1).toInt))
   val temp4 = temp1.flatMap(k => {
      var temp = List[(Int,Int,Double)]
      temp2.foreach(i =>{
        if(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值