Spark中RDD算子概述及创建RDD

最新推荐文章于 2024-06-26 09:48:31 发布

syyyyyyyyyyyyyyh

最新推荐文章于 2024-06-26 09:48:31 发布

阅读量223

点赞数

分类专栏：基本架构文章标签： scala 大数据

本文链接：https://blog.csdn.net/syyyyyyyyyyyyyyh/article/details/108657749

版权

RDD（Resilient Distributed Dataset）是Spark的基础数据抽象，是不可变、可分区的分布式数据集合。RDD具备容错性，通过计算分区和依赖关系实现数据自动恢复。Spark利用RDD解决传统MapReduce在迭代计算和交互式计算中的不足，提供内存计算以提高效率。RDD可通过现有Scala集合、外部存储文件创建或现有RDD转换生成。

摘要由CSDN通过智能技术生成

RDD概述

什么是RDD

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中，后续的查询能够重用这些数据，这极大地提升了查询速度.
Dataset：一个数据集合，用于存放数据的。
Distributed：RDD中的数据是分布式存储的，可用于分布式计算。
Resilient：RDD中的数据可以存储在内存中或者磁盘中.

RDD的属性

1)A list of partitions ：一个分区（Partition）列表，数据集的基本组成单位。
对于RDD来说，每个分区都会被一个计算任务处理，并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分区个数，如果没有指定，那么就会采用默认值,一般为2。（比如：读取HDFS上数据文件产生的RDD分区数跟block的个数相等）

2)A function for computing each split ：一个计算每个分区的函数。
Spark中RDD的计算是以分区为单位的，每个RDD都会实现compute函数以达到这个目的。

3)A list of dependencies on other RDDs：一个RDD会依赖于其他多个RDD，RDD之间的依赖关系。
RDD的每次转换都会生成一个新的RDD，所以RDD之间就会

最低0.47元/天解锁文章

syyyyyyyyyyyyyyh

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark中RDD算子概述及创建RDD

RDD概述什么是RDD RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中，后续的查询能够重用这些数据，这极大地提升了查询速度.Dataset：一个数据集合，用于存放数据的。Distributed：RDD中的数据是分布式存储的，可用于分布式计算。Re.
复制链接

扫一扫

专栏目录