RDD弹性分布式数据集
RDD概述
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中,后续的查询能够重用这些数据,这极大地提升了查询速度。
Resilient:RDD中的数据可以存储在内存中或者磁盘中。
Distributed:RDD中的数据是分布式存储的,可用于分布式计算。
Dataset:一个数据集合,用于存放数据的。
(1) 传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算中要进行大量的磁盘IO操作。RDD正是解决这一缺点的抽象方法。
(2) RDD是Spark提供的最重要的抽象的概念,它是一种具有容错机制的特殊集合,可以分布在集群的节点上,以函数式编程来操作集合,进行各种并行操作。可以把RDD的结果数据进行缓存,方便进行多次重用,避免重复计算。
RDD是一种具有容错性、基于内存计算的抽象方法,RDD是Spark Core的底层核心,Spark则是这个抽象方法的实现。
RDD五大属性
* - A list of partitions
一个rdd有多个分区
* - A function for computing each split
作用在每一个分区中函数
* - A list of dependencies on other RDDs
一个rdd会依赖于很多其他RDD,这里就涉及到rdd的依赖关系
* - Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
(可选项) 针对于kv类型的rdd才会有分区函数(必须要产生shuffle),分区函数就决定了数据会流入到子rdd的那些分区中
* - Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file)
(可选项)一个列表,存储每个Partition的优先位置.数据的本地性,数据位置最优(spark在进行任务分配的时候,会优先考虑存有数据的worker节点来进行任务计算)
一个文件有3个block块
block1-----》node1
block2-----》node2
block3-----》node3
node4
node5
创建RDD
1、通过sparkContext调用parallelize,从一个已经存在的scala集合构建
sc.parallelize(List(1,2,3,4,5))
2、读取外部数据源
val rdd1=sc.textFile("/words.txt")
3、从一个已经存在rdd经过对应的算子操作生成新的rdd
val rdd2=rdd1.flatMap(_.split(" "))
RDD编程API
RDD的算子分类
Transformation(转换):根据数据集创建一个新的数据集,计算后返回一个新RDD;例如:一个rdd进行map操作后生了一个新的rdd。
Action(动作):对rdd结果计算后返回一个数值value给驱动程序;
例如:collect算子将数据集的所有元素收集完成返回给驱动程序。
Transformation
RDD中的所有转换都是延迟加载的,也就是说,它们并不会直接计算结果。相反的,它们只是记住这些应用到基础数据集(例如一个文件)上的转换动作。只有当发生一个要求返回结果给Driver的动作时,这些转换才会真正运行。这种设计让Spark更加有效率地运行。
常用的Transformation:
转换
含义
map(func)
返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成
filter(func)
返回一个新的RDD,该RDD由经过func函数计算后返回值为true的输入元素组成
flatMap(func)
类似于map,但是每一个输入元素可以被映射为0或多个输出元素(所以func应该返回一个序列,而不是单一元素)
mapPartitions(func