Spark之RDD概述

最新推荐文章于 2024-01-03 21:24:18 发布

勤奋的ls丶

最新推荐文章于 2024-01-03 21:24:18 发布

阅读量970

点赞数

分类专栏： spark 文章标签： spark big data 大数据

本文链接：https://blog.csdn.net/lslslslslss/article/details/122886589

版权

spark 专栏收录该内容

9 篇文章 3 订阅

订阅专栏

一、什么是RDD

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象。

代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。

1.弹性：

存储的弹性：内存与磁盘自动切换

容错的弹性：数据丢失可以自动恢复

计算的弹性：计算出错重试机制

分片的弹性：可根据需要重新分片

2.分布式

数据存储在大数据集群不同节点上

3.数据集不存储数据

RDD封装了计算逻辑，并不保存数据集

4.数据抽象

RDD是个抽象类，需要子类具体实现

5.不可变

RDD封装了计算逻辑，是不可改变的，想要改变只能产生新的RDD，在新的RDD里封装计算逻辑

6.可分区，并行运算

注：所有RDD算子相关操作都在Executor端执行，RDD算子之外的操作都在Driver端执行。

在Spark中，只有遇到action等行动算子，才会执行RDD的运算，即延迟计算

二、RDD的五大特性

1）A list of partitions
        RDD由很多partition构成，在spark中，计算式，有多少partition就对应有多少个task来执行
2）A function for computing each split
        对RDD做计算，相当于对RDD的每个split或partition做计算
3）A list of dependencies on other RDDs
        RDD之间有依赖关系，可溯源
4）Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
        如果RDD里面存的数据是key-value形式，则可以传递一个自定义的Partitioner进行重新分区，比如可以按key的hash值分区
5）Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file)
        最优的位置去计算，也就是数据的本地性
        计算每个split时，在split所在机器的本地上运行task是最好的，避免了数据的移动；split有多个副本，所以preferred location不止一个
        数据在哪里，应优先把作业调度到数据所在机器上，减少数据的IO和网络传输，这样才能更好地减少作业运行时间（木桶原理：作业运行时间取决于运行最慢的task所需的时间），提高性能

特性介绍转载自（https://www.jianshu.com/p/650d6e33914b）

勤奋的ls丶

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark之RDD概述

一、什么是RDDRDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。1.弹性：存储的弹性：内存与磁盘自动切换容错的弹性：数据丢失可以自动恢复计算的弹性：计算出错重试机制分片的弹性：可根据需要重新分片2.分布式数据...
复制链接

扫一扫