什么是RDD?
- 弹性分布式数据集分布在不同集群节点的内存中
- 可以理解成一大数组
- 数组的每一元素是RDD的一分区
- RDD的每一分区是一数据块
- 一个RDD可以分布并被运算在多台计算机节点的内存及硬盘中
RDD代表了一系列数据集合分布在机群的内存中。SPARK CORE 的任务是对这些数据进行分布式计算。
RDD特性
- RDD数据块可以放在磁盘上也可放在内存中(取决于设置)
- 如出现缓存失效或丢失,RDD的分区可以重新计算刷新
- RDD本身是不能被修改的
- 但RDD可以通过API (底层采用Scala)被变换生成新的RDD
RDD的类型
- 并行集合(Parallelized Collections):来自于分布式化的数据对象比如PYTHON 中的list 对象.比如用户自己键入的数据
- 文件系统数据集(如 Hadoop Datasets 或文本文件.比如通过SparkContext.textFile() 读取的数据
并行化集合是通过调用SparkContext的parallelize方法,在一个已经存在的数据集合上创建的(一个Seq对象)。集合的对象将会被拷贝,创建出一个可以被并行操作的分布式数据集
RDD的计算方式
- 变换(Transformations) (如:map, filter)的返回值仍然是一个RDD,Transformations操作是Lazy的,也就是说变换只是一些指令集而并不会去马上执行,需要等到有Actions操作的时候才会真正计算给出结果。Lazy Evaluation。
- 操作(Actions) (如:count, collect),Actions操作会返回结果或把RDD数据输出到各类系统中。Actions触发Spark启动并找到最优的计算途径。返回值是非并行化的数据集合比如 PYTHON 中的list