spark输出rdd数据_Spark计算模型RDD

最新推荐文章于 2022-11-28 22:00:00 发布

veritascxy

最新推荐文章于 2022-11-28 22:00:00 发布

阅读量329

点赞数 1

文章标签： spark输出rdd数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_30481539/article/details/112823485

版权

RDD弹性分布式数据集

RDD概述

RDD(Resilient Distributed Dataset)叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中，后续的查询能够重用这些数据，这极大地提升了查询速度。

Resilient：RDD中的数据可以存储在内存中或者磁盘中。

Distributed：RDD中的数据是分布式存储的，可用于分布式计算。

Dataset：一个数据集合，用于存放数据的。

(1) 传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点，但是其最大缺点是采用非循环式的数据流模型，使得在迭代计算中要进行大量的磁盘IO操作。RDD正是解决这一缺点的抽象方法。

(2) RDD是Spark提供的最重要的抽象的概念，它是一种具有容错机制的特殊集合，可以分布在集群的节点上，以函数式编程来操作集合，进行各种并行操作。可以把RDD的结果数据进行缓存，方便进行多次重用，避免重复计算。

RDD是一种具有容错性、基于内存计算的抽象方法，RDD是Spark Core的底层核心，Spark则是这个抽象方法的实现。

RDD五大属性

* - A list of partitions

一个rdd有多个分区

* - A function for computing each split

作用在每一个分区中函数

* - A list of dependencies on other RDDs

一个rdd会依赖于很多其他RDD，这里就涉及到rdd的依赖关系

* - Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)

(可选项) 针对于kv类型的rdd才会有分区函数(必须要产生shuffle)，分区函数就决定了数据会流入到子rdd的那些分区中

* - Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file)

(可选项)一个列表，存储每个Partition的优先位置.数据的本地性，数据位置最优(spark在进行任务分配的时候，会优先考虑存有数据的worker节点来进行任务计算)

一个文件有3个block块

block1-----》node1

block2-----》node2

block3-----》node3

node4

node5

创建RDD

1、通过sparkContext调用parallelize,从一个已经存在的scala集合构建

sc.parallelize(List(1,2,3,4,5))

2、读取外部数据源

val rdd1=sc.textFile("/words.txt")

3、从一个已经存在rdd经过对应的算子操作生成新的rdd

val rdd2=rdd1.flatMap(_.split(" "))

RDD编程API

RDD的算子分类

Transformation(转换)：根据数据集创建一个新的数据集，计算后返回一个新RDD；例如：一个rdd进行map操作后生了一个新的rdd。

Action(动作)：对rdd结果计算后返回一个数值value给驱动程序；

例如：collect算子将数据集的所有元素收集完成返回给驱动程序。

Transformation

RDD中的所有转换都是延迟加载的，也就是说，它们并不会直接计算结果。相反的，它们只是记住这些应用到基础数据集(例如一个文件)上的转换动作。只有当发生一个要求返回结果给Driver的动作时，这些转换才会真正运行。这种设计让Spark更加有效率地运行。

常用的Transformation：

转换

含义

map(func)

返回一个新的RDD，该RDD由每一个输入元素经过func函数转换后组成

filter(func)

返回一个新的RDD，该RDD由经过func函数计算后返回值为true的输入元素组成

flatMap(func)

类似于map，但是每一个输入元素可以被映射为0或多个输出元素(所以func应该返回一个序列，而不是单一元素)

mapPartitions(func

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark输出rdd数据_Spark计算模型RDD

RDD弹性分布式数据集RDD概述RDD(Resilient Distributed Dataset)叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中，后续的查询能够重用这些数据，这极大地提升了查询速度。Resilient：...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。