Spark01：RDD概述

最新推荐文章于 2023-10-14 16:35:42 发布

大雄没有叮当猫

最新推荐文章于 2023-10-14 16:35:42 发布

阅读量132

点赞数

分类专栏：大数据开发

本文链接：https://blog.csdn.net/u013230189/article/details/108230063

版权

33 篇文章 0 订阅

订阅专栏

Spark编程模型地核心是弹性分布式数据集(Resilient Distributed Dataset,RDD),是MapReduce模型的扩展、延申和改进，解决了MR的缺陷：在并行阶段高效的数据共享，并将MR的操作方式进行关键的优化。

MR等模型也能够将计算转换为一个有向无环图(DAG)的任务集合，这是故障和慢节点问题的关键解决办法，但这些模型除了文件系统外没有其他的存储方式，导致频繁的网络IO。

RDD提供一种基于粗粒度变换(如map\filter)的接口，该接口将相同的操作应用到多个数据集，可以记录创建数据集的"血统"(Lineage)，不需要存储真正的数据，从而达到高效的容错性。基于RDD机制实现了多类模型计算：

Spark中RDD的操作主要有创建操作、转换操作、控制操作和行为操作

创建操作：用于RDD的创建。RDD的创建有两种方法，一种是来自于内存集合和外部存储系统，另一种是通过转换操作生成的RDD。
转换操作(Transformation Operation):将RDD通过一定的操作变成新的RDD，比如HadoopRDD可以使用map操作变换为MapperdRDD，RDD的转换操作是惰性操作，它只是定义了一个新的RDDs，并没有立即执行。
控制操作(Control Operation):进行RDD持久化，可以让RDD按不同的存储策略保存在磁盘或者内存中，比如cache接口默认将RDD缓存在内存中。
行动操作(Action Operation):能够触发Spark运行的操作，例如，对RDD进行collect就是行动操作。Spark中行动操作分为两类，一类的操作结果变成Scala集合或者变量，另一类将RDD保存到外部文件系统或者数据库中。

数据挖掘与机器学习笔记

关注