scala中rdd无法join的问题

最新推荐文章于 2024-03-25 18:08:35 发布

微电子学与固体电子学-俞驰

最新推荐文章于 2024-03-25 18:08:35 发布

阅读量818

点赞数

分类专栏： Scala与Spark

本文链接：https://blog.csdn.net/appleyuchi/article/details/107917578

版权

Scala与Spark 专栏收录该内容

119 篇文章 5 订阅

订阅专栏

原始代码如下:

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.log4j.{Level, Logger}

object hello
{

  def main(args: Array[String])
  {
    Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)
    Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
    Logger.getLogger("org.project-spark").setLevel(Level.WARN)

    var conf = new SparkConf().setMaster("spark://Desktop:7077").setAppName("appName")
    var sc = new SparkContext(conf)
    var rdd2= sc.makeRDD(Array((1,1,"a"),(2,2,"b"),(3,3,"c")))
    var rdd1 = sc.makeRDD(Array((1,1,4),(2,2,5),(3,3,6)))
    println(rdd2.getClass.getSimpleName)
//    var rdd3=rdd1.join(rdd2)
    println(rdd1.collect())
  }
}

这个原因是上面的是三维的Array,改成两维的即可进行join了。

var rdd2= sc.makeRDD(Array((1,"a"),(2,"b"),(3,"c")))
var rdd1 = sc.makeRDD(Array((1,"b"),(2,"c"),(3,"d")))

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

微电子学与固体电子学-俞驰

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark 实践 - RDD 的 join操作之需要注意的事项 - RDD为空的join操作

Veechange的博客

12-27

5902

RDD的join操作，如果存在有join的RDD为空，则计算后的结果也将是空的。

Spark源码——RDD中join操作的宽窄依赖探究

qq_37654889的博客

06-16

363

import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object JoinDemo { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName(this.getClass.getCanonicalName.init).setMaster("local[*]") val sc =

参与评论您还未登录，请先登录后发表或查看评论

RDD中join的使用详解

zhikanjiani的博客

05-31

4552

JOIN在Spark CORE中的使用如下需要注意的是：Array后面跟的是一个数组应为：Array(再填写元素) scala> val a = sc.parallelize(Array("A","a1"),("B","b1"),("C","c1"),("D","d1"),("E","e1")) <console>:24: error: too many arguments f...

RDD Join

最新发布

qq_43428465的博客

03-25

199

【代码】RDD Join。

RDD的Join

夫唯不争，故天下莫能与之争。

04-02

2185

工作中遇到一个问题：在Spark的map阶段要用到Hive中的表中的数据最开始的想法就是预加载，在map阶段之前将表加载到DataFrame中，然后作为map的参数传入因为刚接触Spark，不了解具体执行机制，map阶段是分布式的，所以这样也就是说要将DataFrame传输到其他几台机器，如果Hive表非常大，那么内存带宽就是瓶颈后来看到RDD数据集，作为Spark特有的数据集，想到可

Spark的RDD操作之Join大全

hellozhxy的博客

08-31

1826

一、RDD的Join操作有哪些？（一）Join：Join类似于SQL的inner join操作，返回结果是前面和后面集合中配对成功的，过滤掉关联不上的。源代码如下： /** * Return an RDD containing all pairs of elements with matching keys in `this` and `other`. Each...

[scala-spark]10. RDD转换操作

沈春旭的博客

09-23

2392

RDD提供了一组非常丰富的操作来操作数据，如：map,flatMap,filter等转换操作，以及SaveAsTextFile,conutByKey等行动操作。这里仅仅综述了转换操作。 map map是对RDD中的每一个元素都执行一个指定的函数来产生一个新的RDD，RDD之间的元素是一对一的关系。 val rdd1: RDD[Int] = sc.parallelize(1 to 9, 3) ...

Scala版算子（包括：join，leftjoin，rightjoin，fulljoin，distinct，saveAsTextFile，foreachPartition，mapPartit）【代码】

wyqwilliam的博客

07-20

1807

package com.bjsxt.spark import org.apache.spark.SparkConf import org.apache.spark.SparkContext import scala.actors.threadpool.Arrays import scala.collection.mutable.ListBuffer object SparkJoin { ...

两个RDD如何spark join 的Scala代码

06-03

可以使用Spark中的join函数来实现RDD的join操作，具体的Scala代码如下所示： ```scala val rdd1 = sc.parallelize(Seq(("key1", 1), ("key2", 2), ("key3", 3))) val rdd2 = sc.parallelize(Seq(("key1", "value1")...

Spark的RDD操作之Join大全！

热门推荐

邓佑权的博客

11-18

5万+

Spark的RDD操作之Join大全！一、RDD的Join操作有哪些？（一）Join：Join类似于SQL的inner join操作，返回结果是前面和后面集合中配对成功的，过滤掉关联不上的。源代码如下： /** * Return an RDD containing all pairs of elements with matching keys in `this`

九、Scala中Join函数

I want to know a little more.

01-09

1万+

Scala中的Join函数全解一、RDD的Join操作有哪些？（一）Join：Join类似于SQL的inner join操作，返回结果是前面和后面集合中配对成功的，过滤掉关联不上的。源代码如下： /** * Return an RDD containing all pairs of elements with matching keys in `this` and `other`....

scala worldCount join会导致数据量几何增长，并且会影响shuffle的性能，不推荐使用

weixin_44342318的博客

04-16

461

worldCount join会导致数据量几何增长，并且会影响shuffle的性能，不推荐使用

RDD关联函数join与leftOuterJoin与rightOuterJoin与fullOuterJoin详解

yqqの博客

05-26

524

RDD关联函数join与leftOuterJoin与rightOuterJoin与fullOuterJoin详解。

Spark-RDD 键值对的操作（Scala版）

二哥为啥不像程序员？

07-14

2368

键值对RDD是Spark中许多操作所需要的常见数据类型。键值对RDD通常用来进行聚合运算，我们一般要先通过一些初始ETL（抽取，转化，装载）操作来将数据转化为键值对形式。 Spark为包含键值对类型的RDD提供了一些专有的操作，这些RDD被称为PairRDD。创建 pair RDD 很多存储键值对的数据格式会在读取时直接返回其由键值对数据组成的pair RDD，当需要把一个普通的RDD转化...

scala 基础 - join

coder_oyang的博客

08-03

3858

Spark DataFrame中join与SQL很像，都有inner join, left join, right join, full join; 类型说明 inner join 内连接 left join 左连接 right join 右连接 full join 全连接 spark join看其原型 def join(right : DataFrame, usingColumns : Seq[String], joinType : String).

rdd的join使用

python的博客

07-02

4677

代码如下 package rdd import org.apache.spark.{SparkContext, SparkConf} /** * Created by 汪本成 on 2016/7/2. */ object rddJoin { def main(args: Array[String]) { val conf = new SparkConf().setAp

记一次Spark两表join错误修复

wloverine的博客

08-22

4005

业务情景两表根据一个key进行连接，一张表从hive中读取，数据量4千万，一张表从mongo中读取，数据量87万。起初，把小表直接进行广播变量，然后在大表的map算子里面根据key一条一条连接，这样速度很快。后来小标数据源改变了，数据量上升到1千万，此时再用之前的方式去跑spark任务，效率低了很多。然后我把两个数据源的表都注册成临时表，写sparksql作连接，想看看这样和我之前的写法时间...