spark概述与编程模型

最新推荐文章于 2024-07-20 22:06:32 发布

futurewq

最新推荐文章于 2024-07-20 22:06:32 发布

阅读量203

点赞数

分类专栏： hadoop 文章标签： spark hadoop

本文链接：https://blog.csdn.net/wangrongrongwq/article/details/114047836

版权

hadoop 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

spark与hadoop的比较

spark与hadoop的异同点比较

spark rdd

rdd(resilient distributed dataset, 弹性分布数据集)是一个容错的、并行的数据结构，可以让用户显式的将数据存储在磁盘和内存中，并且还能控制数据的分区。对于迭代式计算和交互式挖掘，rdd可以将中间计算的结果保存在内存中，若是后面计算中需要中间结果，则可以直接从内存中读取，从而极大的提高计算速度。

rdd有五大特征：

1.A list of partitions 分区列表. 每个rdd被分成多个分区，这些分区运行在集群的不同节点，每个分区都会被一个计算任务处理，分区数决定了并行计算的数量，创建rdd时可以指定rdd分区的个数，如果不指定分区数量，当rdd从集合创建时，默认分区数量为该程序所分配到的资源的cpu核数(每个core可以承载2-4个partitions), 如果从Hdfs创建，默认为文件的Block数。

2.a function for computing each split 每个分区都有一个计算函数。 spark的rdd的计算函数是以分片为基本单位的，每个rdd都会实现compute函数，对具体的分区进行计算。

3.a list of dependencies on other rdds 依赖于其他rdd. rdd的每次转换都会生成一个新的rdd, 所以rdd之间就会形成类似于流水线一样的前后依赖关系。在部分分区数据丢失时，spark可以根据这个依赖关系计算丢失的分区数据，而不是对rdd的所有分区重新计算。

4.optionally, a partitioner for key-value rdds (key, value)数据类型的rdd分区器. 当前Spark中实现了两种类型的分片函数，一个是基于哈希的HashPartitioner，另外一个是基于范围的RangePartitioner。只有对于于key-value的RDD，才会有Partitioner，非key-value的RDD的Parititioner的值是None。Partitioner函数不但决定了RDD本身的分片数量，也决定了parent RDD Shuffle输出时的分片数量。

5.optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file) 每个分区都有一个优先位置列表。对于一个HDFS文件来说，这个列表保存的就是每个Partition所在的块的位置。按照“移动数据不如移动计算”的理念，Spark在进行任务调度的时候，会尽可能地将计算任务分配到其所要处理数据块的存储位置。

spark rdd 中的依赖关系

在spark中，rdd之间存在依赖关系，rdd之间的依赖关系有2种，分别时窄依赖(narrow dependency)和宽依赖(wide dependency).窄依赖是指父rdd的每个分区最多被一个子rdd的分区使用，窄依赖的表现一般分为2类，第一类表现为一个父rdd的分区对应一个子rdd的分区，第二类表现为多个父rdd的分区对应一个子rdd的分区。当rdd执行map,filter,union及join时，都会产生窄依赖，如下如所示。

rdd做map,filter,union操作时为窄依赖的第一种表现，rdd做join操作时为窄依赖的第二种表现。inputs co-partitioned（输入协同划分）是指多个父rdd的某一分区的所有key，被划分到子rdd的同一分区，而不是指同一个父rdd的某一个分区被划分到子rdd的2个分区。当子rdd做算子操作时，因为某个分区操作失败导致数据丢失，只需要重新对父rdd对应的分区(与子rdd对应的分区)重新做算子操作即可恢复数据。

当rdd做groupByKey和join操作时，会产生宽依赖。如下图所示。

从图中可以看出，当父rdd做groupByKey操作和join(inputs not co-partitioned 输入未协同划分)操作时，子rdd依赖于所有父rdd的所有分区。当子rdd做算子操作时，因为某个分区操作失败导致数据丢失时，则需要重新对父rdd的所有分区做算子操作才能恢复数据。

需要注意的是，join算子操作既可以属于宽依赖，又可以属于窄依赖。当join算子操作后，分区数量没有变化则为窄依赖(如join with inputs co-partitioned，输入协同划分)，分区数量发生变化则为宽依赖(如join with inputs not co-partitioned，输入未协同划分)。

在spark中，rdd采用惰性求值，即每次调用action算子，都会从头计算。然后每次调用action算子，都会触发一次从头开始计算，这对迭代计算代价是很大的。因为迭代计算需要多次重复的使用同一个数据集，所以为了避免重复计算的开销，可以让spark对数据集进行持久化，持久化的方式有2中，分别是cache()和persist().