SparkRDD理解

最新推荐文章于 2022-06-27 14:53:09 发布

N__xc

最新推荐文章于 2022-06-27 14:53:09 发布

阅读量177

点赞数

文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/N__xc/article/details/123559431

版权

谈谈你对spark core的理解：

rdd (Resilient Distributed Dataset) 弹性分布式数据集，是spark的基石，是实现spark数据处理的核心抽象，代表一个不可变，可分区，里面的元素可并行计算的集合。

rdd五大特点：

分区：都是逻辑上的分区，是抽象的存在
只读：要想改变RDD的数据，只能创建新的RDD
依赖：指RDD之间的血缘关系，又分为宽依赖和窄依赖
缓存：RDD可以缓存起来，供多个应用程序使用
检测点(CheckPoint)

rdd五大特性：

分片：RDD数据集的基本组成单位
一个计算每个分区的函数
RDD之间的依赖关系
一个Partitioner(RDD的分片函数)
一个列表，存储存取每个Partition的优先位置

rdd弹性：

rdd自动进行内存和磁盘数据存储的切换叫做存储弹性，拥有基于血统的高效容错弹性

Transormation行动算子 :

映射（ map filter ），重新分区（partitionby,partitionbykey）

对元组计算（***by），多个文件合并计算（join），排序类型（sortby,sortbykey）

Action执行算子：

collect(收集数据)，saveAsTextFile(将数据写出到path)，foreach(遍历数据集)， take(取前n个数据)，first(返回第一个元素)

RDD的宽依赖和窄依赖：

定义：由于RDD是粗粒度的操作数据集，每个Transformation操作都会生成一个新的RDD，
所以RDD之间就会形成类似流水线的前后依赖关系；RDD和它依赖的父RDD（s）的关系有
两种不同的类型，即窄依赖（narrow dependency）和宽依赖（wide dependency）

区别：
宽依赖：指的是多个子RDD的Partition会依赖同一个父RDD的Partition，
关系是一对多，父RDD的一个分区的数据去到子RDD的不同分区里面，会有shuffle的产生

窄依赖：指的是每一个父RDD的Partition最多被子RDD的一个partition使用，是一对一的，
也就是父RDD的一个分区去到了子RDD的一个分区中，这个过程没有shuffle产生

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SparkRDD理解

谈谈你对spark core的理解：rdd (Resilient Distributed Dataset) 弹性分布式数据集，是spark的基石，是实现spark数据处理的核心抽象，代表一个不可变，可分区，里面的元素可并行计算的集合。rdd五大特点：分区：都是逻辑上的分区，是抽象的存在只读：要想改变RDD的数据，只能创建新的RDD 依赖：指RD...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。