第3章：RDD编程

最新推荐文章于 2024-07-09 15:06:07 发布

iamxiaofeifei

最新推荐文章于 2024-07-09 15:06:07 发布

阅读量354

点赞数

分类专栏：读书笔记：《Spark快速大数据分析》文章标签： spark 分布式集群

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/iamxiaofeifei/article/details/76982771

版权

读书笔记：《Spark快速大数据分析》专栏收录该内容

2 篇文章 0 订阅

订阅专栏

RDD：弹性分布式数据集（Resilient Distributed Dataset），就是分布式的元素集合，Spark对数据的核心抽象。
Spark中对数据的操作不外乎创建RDD，转化RDD，调用RDD操作进行求值。
Spark自动将数据分发到集群上，并将操作并行化执行。

1. RDD基础

RDD是不可变的分布式对象集合，每个RDD被分为多个分区，这些分区运行在集群的不同节点上。

2. RDD创建（两种方式）：

1 . 读取一个外部数据集

val lines = sc.textFile("../README.md") // 创建一个名为lines的RDD

2 . 在驱动器程序里分发驱动器程序中的对象集合（比如list和set）。

val lines = sc.parallelize(List("pandas", "i like pandas"))

3. RDD操作

RDD支持两种操作，转化操作（transformation）和行动操作（action）。
转化操作由一个RDD生成一个新的RDD，这里使用惰性求值策略，返回结果是一个RDD。
Spark使用谱系图来记录不同RDD之间的依赖关系，也可以依靠谱系图来恢复持久化后的RDD丢失的数据。

val pythonLines = lines.filter(line => line.contains("Python"))

行动操作会对RDD计算出一个结果，并把结果返回到驱动器程序中或存储到外部存储系统，返回结果不是RDD，是其他类型数据。

pythonLines.first()

RDD持久化：
在Scala和JAVA中，persist()默认将数据序列化到JVM的堆空间中，

RDD.persist() 
RDD.cache()

// cache和persist都可以用unpersist来取消
RDD.unpersist()

这里写图片描述

lines.persist(StorageLevel.DISK_ONLY)

如果缓存的数据太多，内存放不下，Spark会利用最近最少使用（LRU）的缓存策略把最老的分区从内存中移除。如果是MEMORY_ONLY的话，下一次要用到移除的分区时就需要重新计算。如果是MEMORY_AND_DISK的话，移除的分区会写入磁盘。

4. 常见的转化操作和行动操作

这里写图片描述

5. RDD类型转换

Scala隐式转换：

import org.apache.spark.SparkContext._ // 加上这一句来使用隐式转换

6. 向Spark传递函数

在scala中，可以将内联函数、方法的引用或静态方法传递给Spark。

如果scala中出现NotSerializableException，通常的问题是在于我们传递了一个不可序列化的类中的函数或字段。传递局部可序列化对象或顶级对象中的函数始终是安全的。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第3章：RDD编程

RDD：弹性分布式数据集（Resilient Distributed Dataset），就是分布式的元素集合，Spark对数据的核心抽象。 Spark中对数据的操作不外乎创建RDD，转化RDD，调用RDD操作进行求值。 Spark自动将数据分发到集群上，并将操作并行化执行。1. RDD基础RDD是不可变的分布式对象集合，每个RDD被分为多个分区，这些分区运行在集群的不同节点上。2. RDD创建（
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。