大数据开发:Spark数据抽象RDD入门

在Spark框架当中,一个核心的数据抽象概念,就是RDD。正是由于RDD的引入,使得Spark框架在整体性能上有了更好的表现,对于RDD,需要我们去全面深入地理解和掌握。今天的大数据开发学习分享,我们就来具体讲讲,Spark数据抽象RDD。

事实上,RDD的诞生早于SparkSQL,属于Core Spark。RDD的入口是SparkContext,在Spark各种语言中都可以使用,包括Scala,python,java。DataFrame和Dataset是RDD的更高级抽象,RDD是他们的基础。
 

大数据学习:Spark数据抽象RDD入门


一、RDD介绍

1.RDD(Resilient Distributed Dataset)

Resilient: 如果内存中数据丢失,可以方便重建

Distributed: 数据分布于集群各节点

Dataset: 初始数据可以来自外部文件系统或者内存数据结构

2.RDD是非结构化数据

没有Schema文件来定义他的行或者列的类型,可以包含各种类型的数据

不像数据表,不能执行类似SQL的查询,使用函数

RDD的执行计划没有被Catalyst优化器优化过,所以一般手写代码效率没有DataFrame效率高

3.RDD的数据类型

原始类型比如integers, characters, Booleans

集合类型比如: sting, list, array, tuple, dictionaries

嵌套集合类型

Scala/Java对象

混合类型

4.RDD的数据源

文件,textfile或者其他类型的文件

使用textFile或者wholeTextFile读取text文件

使用hadoopFile或者newAPIHadoopFile来读取其他格式的文件

内存中数据结构

其他RDD

DataFrame或者Dataset

二、RDD创建

1.通过本地集合序列化创建

val rdd = spark.sparkContext.parallelize(Seq(

          Row(1,"mark",27),

          Row(2,"shie",43),

          Row(3,"yuli",39)

        ))



val rdd = spark.sparkContext.parallelize(Array(1,2,3,4))

rdd.foreach(println)

结果:

[1,mark,27]

[2,shie,43]

[3,yuli,39]

2.通过读取外部数据文件

val rdd = spark.sparkContext.textFile("file:///D:/projSrc/data/wordcount.txt")

    rdd.foreach(println)

结果:

id,name,age

1,mark,27

2,jony,34

3,july,23

3.通过RDD变换,从一个RDD转为另一个新的RDD

val rdd2 = rdd1.map(x=>x)

4.从DataFrame转为RDD

(需要引入spark.implicit._隐式转换)

DataFrame.toRDD

三、RDD使用

RDD的操作主要分为Transformation算子和Action算子两类。

1.Transformation算子

RDD中所有转换算子都是延迟加载,从一个RDD到另一个RDD转换没有立即转换,仅记录数据的逻辑操作,只有要求结果还回到Driver时的动作时才会真正运行。

2.Action算子

Action操作执行,会触发一个spark job的运行,从而触发这个Action之前所有的Transformation的执行。这是Action的特性。

从HDFS文件生成SparkRDD,经过map,filter,join等多次Transformation操作,最终调用saveasTextFile Action算子将结果输出到HDFS。

关于大数据开发学习,Spark数据抽象RDD入门,以上就为大家做了详细的介绍了。对于RDD的学习,从理论上先去理解它,然后在实际编程当中,不必特别关注RDD底层,只需将它看做一个整体来进行调用即可。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值